Etkileşimli sanal karakterler oluşturmak, doğal hareket eden ve çeşitli kontrol girdilerine akıllıca yanıt veren bir tasarım yapmak, bilgisayar animasyonu ve robotik alanında karşılaşılan en zorlu sorunlardan biridir. NVIDIA Isaac Sim gibi yüksek performanslı paralel simülatörler, etkileşimli insansı robotların eğitimi konusunda önemli gelişmeler sağlamış olsa da, mevcut yaklaşımlar hala temel bir sınırlama ile yüzleşmektedir. Yani, farklı görevler için uzmanlaşmış kontrol cihazlarına ihtiyaç duymaktadırlar.
Adversarial Motion Priors ve Human2Humanoid gibi son zamanlarda geliştirilen projeler, hem simüle edilen hem de gerçek robotlar için önemli bir ilerleme kaydederken, bu yaklaşımlar, insansının kontrolünde yapılacak her değişikliğin yeni bir uzmanlaşmış kontrolörün yeniden eğitilmesini gerektirmesi açısında ortak bir handikapa sahiptir.
Bu yazıda, hareket tamamlama (motion inpainting) perspektifinden, bütün vücut insansı kontrolünü birleştiren MaskedMimic adlı çerçeve tanıtılacaktır.
Görev-spesifik Kontrol Zorluklarının Üstesinden Gelme
Geleneksel insansı kontrol yöntemleri, görev-spesifik doğaları nedeniyle doğal olarak sınırlıdır. Örneğin, bir yolda takip için eğitilmiş bir kontrolcü, baş ve el koordinat takibi gerektiren uzaktan kumanda görevlerini yerine getiremez. Benzer şekilde, bir göstericinin tam vücut hareketini takip etmek için eğitim almış bir kontrolör, anahtar noktaların (keypoints) bir alt kümesini takip etmesini gerektiren senaryolara uyum sağlayamaz.
Bu uzmanlaşma, aşağıdaki önemli zorlukları ortaya çıkarmaktadır:
- Kontrol şemasını değiştirmek için yeni eğitim ortamları tasarlamak, belirli ödüller ve gözlemlerle yeni bir kontrol cihazı eğitmek gerekecektir.
- Kontrol modları arasında geçiş yapmak pratik olmayacak şekilde karmaşıklaşır.
- Geliştirme ve dağıtım süreçleri uzun ve kaynak yoğun olur.
Hareket Tamamlama ile Birleşik Çözüm
Son zamanlarda yapılan yenilikler, yapay zeka alanında inpainting yöntemlerinin mükemmel sonuçlar verdiğini göstermektedir. Bu teknikler, metin, resim ve animasyon gibi bir çok alanda görülmektedir. Tüm bu yöntemler, maske veya eksik görünümden tam veriyi yeniden oluşturma çabasına dayanır. MaskedMimic, bu etkileyici paradigmayı tam vücut insansı kontrolüne uyarlamıştır.
MaskedMimic, çeşitli türde kısmi hareket tanımlamalarını kabul eder:
- Maskeli anahtar çerçeveler: Belirli bir zaman dilimindeki seçili vücut parçalarının konum verileri (örneğin, VR uzaktan kumanda verileri ile baş/kol pozisyonları).
- Sahne etkileşimi: Doğal nesne etkileşim tanımlamaları (“bu sandalyeye otur” gibi).
- Metin tanımları: Doğal dil ile verilen hareket tanımları (“sağ elinle selamla” gibi).
- Melez girdiler: Yukarıdakilerin kombinasyonları (örneğin stilize metin kısıtlamalarıyla yol takibi).
MaskedMimic Nasıl Çalışır?
MaskedMimic’i eğitme süreci, insan hareketleri, bu hareketlerin metin tanımları ve sahne bilgisi içeren büyük bir veri seti üzerinden iki aşamalı bir boru hattında gerçekleştirilir.
Bu veri seti, insanların nasıl hareket ettiğini gösterirken, aynı zamanda bu hareketlerin simüle edilen robot tarafından yeniden üretilmesi için gereken motor eylemlerini içermemektedir.
İlk aşama, bütün vücut hareket takibi görevinde bir pekiştirme öğrenme ajanının eğitilmesini kapsamaktadır. Model, robotun propriosepsiyonunu, çevresindeki arazinin durumunu ve gerçekleştirmesi gereken hareketi gözlemleyerek motor eylemlerini tahmin eder. Bu süreç, çevresine uyum sağlayan ters bir model olarak düşünülebilir.
Eğitimin ikinci aşaması, çevrimiçi öğretmen-öğrenci damıtma sürecidir. İlk aşamadaki model uzman olarak atanır ve artık eğitilmez.
Eğitim sırasında, insansı robot, rastgele bir hareketin rastgele bir çerçevesi ile başlatılır. Uzman, dokunulmamış bir gelecekteki gösterimi izlerken, öğrenciye bu gösterimin rastgele maske uygulanmış versiyonu sağlanır.
Bir maske, çok yoğun olabilir; öğrenci modeli, her çerçevedeki her eklem, metin ve sahne bilgisi gibi tüm bilgileri alabilir. Ya da çok seyrek olabilir; örneğin sadece metin veya belirli bir süre içinde baş konumunun verilerini içerebilir.
Öğrencinin (MaskedMimic) amacı, hareket tamamlama işlemidir. Sağlanan kısmi (maskelenmiş) hareket tanımlamasıyla, MaskedMimic’in hedefi, uzman kişinin eylemlerini başarılı bir şekilde tahmin edip aktararak, orijinal maske uygulanmamış hareket gösterimini yeniden üretmektir.
Hareketin Yeniden Yapılandırılması
Kontrol ve hareket üretimini bir tamamlama problemi olarak görmek, geniş bir yetenek yelpazesi sunar. Örneğin, MaskedMimic, bir kullanıcının gösterimini simüle edilmiş sanal bir dünyada yeniden oluşturabilir.
Kamera tarafından tahmin edilen hareket tüm vücut ana noktalarını içerebilir.
Öte yandan, sanal gerçeklik sistemleri genellikle yalnızca bir alt küme izleme sensörü içerir. Oculus ve Apple Vision Pro gibi yaygın sistemler, hem baş hem de el koordinatlarını sağlar.
VR izleme için başarı oranı ve izleme hatası da ölçülmektedir. Ampirik sonuçlar, MaskedMimic’in uzman kontrolörlerden daha iyi performans gösterdiğini ortaya koymaktadır. Özel görev eğitimi veya ince ayar olmadan, birleştirilmiş MaskedMimic kontrolörü, önceden uzmanlaşmış yöntemleri aşmaktadır.
Yöntem | Başarı Oranı | Ortalama İzleme Hatası (mm) |
MaskedMimic | 98.1% | 58.1 |
PULSE | 93.4% | 88.6 |
ASE | 37.6% | 120.5 |
CALM | 10.1% | 122.4 |
Etkin Kontrol
Aynı kontrol şeması, kullanıcı girdilerinden yeni hareketler üretmek için yeniden kullanılabilir. Tek bir birleşik MaskedMimic politikası, çok sayıda görevi çözebilir; bu, önceki çalışmaların birçok ayrı uzmandan oluşan kontrol cihazlarını eğiterek çözdüğü bir problemdir.
MaskedMimic, gelecekteki pozisyon ve yönü belirtmek için bir joystick kontrolörü kullanarak yönlendirilir.
Benzer şekilde, baş konumu ve yüksekliğine dayalı olarak, MaskedMimic, bir yolu takip etmesi için yönlendirilir.
Başka önemli bir yetenek ise sahne ile etkileşimdir. MaskedMimic’in bir nesne üzerine yönlendirilmesi, ona “o nesne ile doğal bir şekilde etkileşimde bulun” demek gibidir.
MaskedMimic Birleşik Sisteminin Faydaları
MaskedMimic, iki temel avantaj sunmaktadır:
- Üstün performans: MaskedMimic, çok sayıda kontrol girişi arasında görev-spesifik kontrol cihazlarını aşmaktadır.
- Sıfırdan genel anlamda öğrenme: MaskedMimic, ayrı eğitim rejimlerinden elde edilen bilgileri birleştirme kabiliyeti gösterir. Bu, jeneratif metin ve görüntü modellerinin öğrendiklerini birleştirmeye benzer. Örneğin, sadece düz ve bozulmamış bir ortamda nesne etkileşimi üzerine eğitim aldığı halde, daha önce görülmemiş nesnelerle sınırlı fakat düzensiz yüzeylerde etkileşimde bulunmayı öğrenir.
Özet ve Gelecek Çalışmalar
MaskedMimic, hareket tamamlama yoluyla farklı kontrol modlarını birleştirerek insansı kontrolünde önemli bir gelişme temsil etmektedir ve fiziksel gerçekçiliği korumaktadır. Bu araştırma, aşağıda ayrıntılı olarak belirtilen birkaç heyecan verici yönde genişletilebilir.
- Robotik uygulamalar: Bu çalışmayı gerçek robotlara uyarlamak oldukça doğaldır. Unitree H1 gibi simüle edilmiş bir robot üzerinde eğitim almak, gerçek robot sistemlerinde daha sezgisel kontrollere olanak tanır.
- Geliştirilmiş etkileşim yetenekleri: Bu çalışma basit ve statik sahneleri sergiliyor. Bir sonraki büyük kilometre taşı, nesne manipülasyonu ve parkur gibi daha karmaşık ve dinamik ortamlarda çalışabilmektir.
- Teknik iyileştirmeler: Son olarak, bu çalışma animasyon üzerine odaklanmıştır. Çıktı hızını optimize etmek, gerçek zamanlı oyun ve robotik sistemler içinde kullanımı kolaylaştırabilir. Ayrıca, başarısızlıktan kurtulma yeteneğini geliştirmek, daha çeşitli ve öngörülemeyen ortamlarda dağıtım yapabilmek için önemlidir.
Daha fazla bilgi ve kaynak kodu ile önceden eğitilmiş modeller için MaskedMimic: Birleştirilmiş Fizik Tabanlı Karakter Kontrolü İçin Hareket Tamamlama. adresini ziyaret edebilirsiniz.