SON DAKİKA

Nvdia

NVIDIA Warp ve Gaussian Splatting ile Robotik Zihinsel Modellerin Oluşturulması

Bu yazı, fiziksel dünyanın dinamik dijital temsillerini oluşturma konusunda umut verici bir yönü inceliyor ve bu konu, son araştırmalarda giderek daha fazla ilgi çekiyor. Gerçek dünyayla sürekli senkronize kalan bir dijital ikiz oluşturma yaklaşımımızı tanıtıyoruz. Bu tür bir ikiz, zengin durum bilgisi sunarak çeşitli alt görevleri destekler ve geliştirir.

İnsanlar, gözleriyle gördükleri görüntülerden olağanüstü bir kolaylıkla içsel bir dünya modeli oluşturur. Düz resimleri üç boyutlu bir ortama dönüştürür ve bu hayali alan içinde fiziksel etkileşimleri simüle eder, sonuçları tahmin eder ve uyum sağlarlar. Gözlerimizi kapattığımızda bile hareket ettiğimiz nesneleri “görürüz”. Gözlerimizi tekrar açtığımızda, hayal ettiğimizle olan farklılıkları uyumlu hale getiririz.

Bu dinamik görsel-fiziksel akıl yürütmeyi robotlarda çoğaltmak, fiziksel AI araştırmalarının bir sınırıdır ve bu yolda adımlar atılmaktadır. Yaklaşımımızın merkezinde, Fiziksel Bedensel Gauss vardır; bu, robotların gerçek dünyaya canlı bir iç simülasyon tutmasının faydalı olabileceği fikridir. Sadece ham görüntü akışlarına veya çevrimdışı yeniden yapılandırmalara güvenmek yerine, gerçeği gerçek zamanlı olarak yansıtan sürekli güncellenen ve fiziksel olarak farkındalığa sahip bir dünya modeli oluşturmaya çalışıyoruz.

Neden açık simülasyon?

Tarihsel olarak, fiziksel dünyanın açık modellemesi zorlu olmuştur çünkü bilinen 3D modellere, iyi ayarlanmış dinamiklere ve simülasyondan gerçek dünyaya güvenilir bir şekilde aktarım yapacak iyi modellemiş sensörlere ihtiyaç vardır.

Bugün, bu engellerin aşılmasına tanık oluyoruz.

Özellikle ayırt edici renderleme ve modern segmentasyon ile sahne anlama modellerindeki atılımlar sayesinde, sadece birkaç görüntü ve temel fiziksel ön bilgi kullanarak simülatörler oluşturmak artık mümkün. Bizim kullanım durumumuzda, yüksek modelleme doğruluğu kritik değildir; çünkü simülatör, gerçek dünya görüntü gözlemlerinin akışıyla sürekli olarak denetlenip düzeltilir.

Ayırt edici renderleme ile sürekli görsel denetim

Fiziksel Bedensel Gausslarda, ayırt edici renderleme iki yönlü bir rol oynar: simülatörün başlatılması ve gözlemlenmesi.

Denetim, simülatörün durumunu sürekli ayarlayarak, renderlenen görüntüler gerçek dünya gözlemleriyle eşleşene kadar sağlanır. Yaklaşık 30 Hz hızla çalışan bir fizik motoruyla birleştiğinde, bu etkili bir geri bildirim döngüsü oluşturur. Simülasyonun yalnızca yaklaşık 33 milisaniye boyunca doğru kalması gerekir. Hatalar meydana geldiğinde, renderleme sistemi schnell düzeltir. Pratikte, bu yöntem noksan biçimde başlatılmış fizik modellerinin zamanla doğru kalmasını sağlar; çünkü gerçek zamanlı düzeltme mekanizması simülasyondaki hataları telafi eder.

Gaussian splatting’i renderleyici olarak kullanmak ve modern hızlı GPU’lar ile bu sürecin tamamının gerçek zamanlı olarak çalışmasını sağlamak mümkündür.

Güçlü ön bilgi sayesinde daha az kamera

Gaussian splatting sistemleri genellikle güvenilir çalışabilmek için 30 veya daha fazla kameraya ihtiyaç duyar; bu da robotik uygulamalar için sorun yaratır.

Biz bunu, robotik ortamda bulunabilen ön bilgileri kullanarak çözüyoruz. Örneğin:

  • Robotun her zaman pozunu ve geometrisini biliyoruz.
  • Robotun etkileşime gireceği nesneleri ve bunların sert mi yoksa esnek mi olduğunu biliyoruz.
  • Dünya hakkında temel fizik bilgisine sahibiz; nesneler düşer, çarpışır ve birbirlerinin içinden geçmez.

Bu ön bilgileri kullanarak yalnızca görsel yeniden üretimin ötesine geçebiliyoruz. Temsilimiz yalnızca görünüşle değil, aynı zamanda fizik ile de temellendirilmiştir ve çok daha az sayıda kamera ile sağlam bir şekilde işlev görebilir.

İkili temsil: parçacıklar ve Gauss’lar

Two images showing a robot interacting with tabletop objects.
Şekil 1. Bedensel Gaussların ikili temsilini gösteren parçacıklar ve Gaussların rendering işlemiyle etkileşimi.

Bu vizyonu hayata geçirmek için simülatörümüzü iki ana bileşen etrafında geliştirdik:

  • Parçacıklar, dünyanın fiziksel yapısını temsil eder ve genişletilmiş konum tabanlı dinamikler (XPBD) kullanarak hızlı ve kararlı bir fizik motoru tarafından yönetilir; bu teknik, gerçek zamanlı grafikte ve oyunlarda yaygın olarak kullanılmaktadır.
  • 3D Gauss’lar, sahnenin görsel görünümünü temsil eder. Bu Gauss’lar parçacıklara bağlanır ve Gaussian splatting kullanılarak renderlenir.

Parçacıklar, Gauss’ların hareketine yön verirken, ayırt edici renderleyiciden gelen görsel hatalar, parçacıkları hizalamak için düzeltici güçler oluşturur. Bu ikili sistem, kapalı bir döngü oluşturur: fizik görselleri, görseller fiziksel durumu düzeltir.

Birlikte, bu iki alt sistem, çevrenin gerçek zamanlı, görsel ve fiziksel olarak doğru bir modelini korur; uyumlu, etkin ve algı temellidir.

NVIDIA Warp ve gsplat ile inşa edildi

Simülatörümüz, fizik motoru ve görsel araçlar için NVIDIA Warp kullanır ve gsplat‘ı ayırt edici renderleme için kullanır.

Daha fazla teknik bilgi, demolar ve açık kaynak kod için https://embodied-gaussians.github.io/ adresini ziyaret edebilirsiniz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri