SON DAKİKA

Nvdia

“NVIDIA Araştırması ile Robot Öğrenimini Dönüştüren Üç Sinirsel Yenilik: R²D²”

Geleceğin robotları, laboratuvar ortamlarda gösterdikleri başarıya rağmen, gerçek dünya görevlerinde karşılaştıkları belirsizlik, ustalık ve ince etkileşimler konusunda hâlâ zorluk çekiyor. Bu, nazik bileşenleri bir araya getirmekten, gündelik nesneleri insan benzeri bir hassasiyetle manipüle etmeye kadar uzanan geniş bir yelpazeyi kapsıyor.

Robot öğrenimi, bu laboratuvar gösterimlerinden gerçek dünya uygulamalarına geçişteki boşluğu kapatmanın anahtarı olarak ortaya çıkmıştır. Ancak, geleneksel yaklaşımlar bazı temel sınırlamalarla karşı karşıyadır:

  • Klasik simülatörler, modern robot sistemlerinin tam karmaşıklığını yakalayamaz.
  • İnsan gösterimleri, farklı robot gövdelerine uygulanması zor olan bilgileri içerir.
  • İnsanların en doğal şekilde gerçekleştirdiği görme ve dokunma koordinasyonu, makinalar için hâlâ ulaşılması zor bir hedef.

Bu bölümde, NVIDIA Araştırma ekibinin, CoRL 2025‘te sergilediği üç çığır açan sinir ağı yeniliğini keşfedeceğiz:

  • NeRD (Sinir Robot Dinamikleri): Görevler arasında genelleyebilen öğrenilmiş dinamik modellerle simülasyonu geliştiren bir yaklaşım, gerçek dünya ince ayarına olanak tanır.
  • Dexplore: Hareket yakalama gösterimlerini uyumlu rehberlik olarak değerlendirerek insan seviyesinde beceri kazanımını sağlar.
  • VT-Refine: Görme ve dokunsal algıyı birleştirerek özel bimanuel montaj görevlerini gerçekten simülasyona ve geri transfer aşamalarında ustalaşmayı sağlar.

Bu yenilikler, geliştiricilere araştırmaları ilerletmek için teknikler, kütüphaneler ve iş akışları sunmaktadır.

Sinir Simülasyonu ile Robotlara Öğretim

Simülasyon, robot geliştirme iş akışında kilit bir role sahiptir. Robotlar, simülasyonda görevleri sağlam bir şekilde öğrenebilirler, çünkü kütle ve sürtünme gibi parametreler eğitim sırasında rastgeleleştirilebilir. Ancak geleneksel simülatörler, modern robotların karmaşıklığını yeterince yakalayamaz. Yüksek serbestlik derecelerine ve karmaşık mekanizmalara sahip bu robotlar için sinirsel modeller bu zorluğun üstesinden gelebilir; karmaşık dinamikleri tahmin edebilir ve gerçek dünya verilerine uyum sağlayabilir.

Örneğin, NeRD, bir robotun (veya artiküle sağlam cisim sisteminin) temas kısıtlamaları altında gelecekteki durumlarını tahmin etmek için kullanılan öğrenilmiş bir dinamik modeldir. Bu model, bir analitik simülatörde düşük seviyeli dinamikler ve temas çözücülerinin yerini alarak hibrit bir simülasyon tahmin çerçevesi oluşturur.

Framework overview of Neural Robot Dynamics (NeRD) with three sections labeled Classical Robotics Simulation Workflow, Hybrid Prediction Framework with NeRD, and Robot-Centric State Representation.
Şekil 1. NeRD, karmaşık dinamikleri etkili bir şekilde tahmin edebilir ve gerçek dünya verilerine uyum sağlayabilir.

NeRD, uzaysal değişmezliği en üst düzeye çıkaran bir robot merkezli durum temsili kullanır; bu, eğitimi ve veri etkinliğini artırır, genel genelleştirmeyi büyük ölçüde iyileştirir. NeRD, mevcut artiküle sağlam cisim simülasyon çerçevelerine kolayca entegre edilebilir. NVIDIA Warp ile entegrasyonu doğrulanmış olup, gelecekte Newton Fizik Motoru içinde birçok çözücülerden biri olarak kullanılması planlanmaktadır.

Herhangi bir robot için NeRD modelini eğitmek üzere 100 bin rastgele yol, her biri 100 zaman adımı ile eğitim verisi olarak toplanır. NeRD, GPT-2 Transformer’ın hafif bir uygulaması kullanılarak modellenmiştir ve altı farklı robot sistemi için eğitimler gerçekleştirilmiştir.

NeRD modelleri, binlerce zaman adımı boyunca kararlı ve doğru bir performans sergilemekte; bir ANYmal dört bacaklı robotu için 1,000 adımlık politika değerlendirmesinde %0.1’den az hata ile mükemmel bir doğruluk elde edilmektedir. Bu yaklaşım, NeRD ile entegre edilmiş simülatörde öğrenilmiş bir Franka erişim politika ile sıfırdan simüle edilenden gerçeğe geçiş göstermiştir; ayrıca, NeRD’nin gerçek dünya verileriyle daha fazla ince ayar yapma yeteneği bulunmaktadır.

NeRD gibi sinirsel modeller, robotik araştırmaları hızlandıracak; geliştiricilerin karmaşık tam gövde eğitimini klasik simülasyon teknikleriyle birleştirerek doğru bir şekilde simüle edebilmesini sağlayacaktır.

Two side-by-side images showing how well the NeRD-integrated simulator compares to a classic simulator. In both cases, the robot using the NeRD-integrated simulator shows the same, gait, and speed as the classic simulator.
Şekil 2. Öğrenilmiş politikaların yürütülmesi, NeRD entegre simülatörü ve klasik simülatör arasında yüksek oranda eşleşme göstermektedir.

İnsan Hareketlerinden Usta Becerileri Öğrenmek

Robot ellerine insan seviyesinde ustalık kazandırmak tarihsel olarak zor bir problemdir. İnsan elleri, kıtalık karmaşıklık, uyumluluk ve zengin dokunsal algılama yetenekleri gibi eşsiz özellikler taşır. Robotik eller ise, düşük hareket serbestliği, sınırlı algılama ve kontrol yeteneklerine sahiptir. Bu durum, robotların insanlardan ustaca manipülasyon öğrenmesini zorlaştırıyor.

El-nesne hareket yakalama (MoCap) veri havuzları, yoğun temas içeren insan gösterimlerini sağlar, ancak bu gösterimlerin doğrudan politika öğreniminde kullanılması zordur. Mevcut iş akışları, üç ana bileşen içerir: yeniden hedefleme, takip etme ve artık düzeltme, bu da hataları artırır.

Bu araştırma, Referans-Kapsamlı Keşif (RSE) olarak bilinen birleşik bir optimizasyon yöntemini tanıtmaktadır. Bu yöntem, yeniden hedefleme ve takibi entegre ederek, MoCap verilerinden doğrudan ölçeklenebilir bir robot kontrol politikası oluşturmayı sağlar. Gösterimler, “kesin” bir gerçeklik olarak değil, yumuşak bir rehberlik olarak değerlendirilir.

In the first part of the workflow, the robot imitates demonstrated trajectories in reference scoped regions. These skills are then distilled into a vision-based policy in the next part.
Şekil 3. İnsan gösterimlerinden öğrenilen beceriler, öncelikle RSE ile durum tabanlı taklit kontrol politikası eğitimi ile robotlara keşif stratejileri kazandırmaktadır.

İş akışının ikinci kısmında, bir görsel tabanlı üretken kontrol politikası öğrenilerek durum tabanlı taklit kontrol politikasını damıtır. Bu, robotik elin tek bir açılı görüntüden elde edilen kısmi gözlemlerle nesneleri manipüle etmesini sağlar. Eğitim sırasında, politikanın amacı, robot elinin belirlenen yolu takip etmesi için çeşitli nesne manipülasyon becerilerini gerçekleştirmesindir; bu nesneler arasında muz, cep telefonu, fincan ve dürbün bulunmaktadır. Model, bir kodlayıcı, bir ön ağ ve bir çözümleyici politika içerir. Çıkarım zamanı geldiğinde, kodlayıcı hariç tutulur ve öğrenilen ön için doğrudan örnekleme yapılır; bu sayede yalnızca kısmi gözlemlerle etkili bir hedefe uygun ustaca manipülasyon yapılmasına imkan tanıyan bir üretken kontrol politikası ortaya çıkar.

Bu yaklaşım, Inspire elinde %20 artışla neredeyse muazzam başarı oranları elde eder. Ayrıca, hem Inspire hem de Allegro robot ellerinde her temel yöntemi sürekli olarak geçmektedir. Durum tabanlı politika, insan gösterimlerini taklit etme ve görünmeyen senaryolarda genelleme yeteneği açısından değerlendirilirken, görsel tabanlı politikaların simülasyonda manipülasyonu ve gerçek dünyaya başarılı bir şekilde transfer edilmesi üzerinde çalışılır.

Bimanuel Montaj için Görme ve Dokunun Birleştirilmesi

İnsanlar, manipülasyon ve bimanuel montaj görevlerini gerçekleştirirken görsel ve dokunsal geri bildirimden yararlanarak başarılı olurlar. Örneğin, bir fiş ve soketin montajını düşünün. İlk olarak, gerekli bileşenleri görsel olarak tanımlayarak kavrarsınız. Parçaların montajı sırasında ise, görsel geri bildirim yetersiz kalır; bu noktada dokunsal geri bildirim hayati bir rol üstlenir.

Davranışsal klonlama ve difüzyon politikaları faydalıdır; ancak gerçek dünya gösterimleri sınırlıdır ve veri toplama arayüzünde dokunsal geri bildirim kısıtlamaları bulunmaktadır. Bu veri sorununu çözmek için, VT-Refine adlı çalışma, bimanuel montaj görevleri için simülasyon, görme ve dokuyu birleştiren yeni bir gerçekten simülasyona ve geriye transfer çerçevesi geliştirir (Şekil 4).

  1. Öncelikle, bir bimanuel visuo-taktik difüzyon politikasını ön eğitmek için az sayıda gerçek dünya gösterimi (örneğin 30 bölüm) toplanır.
  2. Bu politika, renkleme öğrenimi (RL) kullanarak paralel simülasyon ortamında dijital ikizinde ince ayar yapılır.
  3. Sonrasında, bu politika gerçek dünyaya uygulanır.
Diagram divided into two sections labeled Real World (left) showing human demos (Vision and Touch), Tactile Signals, and diverse assembly tasks; and Simulation (right) showing GPU-Parallelized Tactile Simulation and Large-Scale RL Fine-Tuning. Each section shows robot arms performing various tasks.
Şekil 4. VT-Refine, hassas, temas temelli bimanuel montaj görevleri için yeni bir visuo-taktik politika öğrenim çerçevesidir.

Taktik sensör girişi simülasyonu, TacSL, GPU tabanlı bir dokunsal simülasyon kütüphanesi olan Isaac Lab ile birleşik olarak inşa edilmiştir. Bu, simülatik deneyimlerin daha iyi sim-gerçek aktarılabilirliğini sağlar; çünkü dokunsal sensörlerin yumuşaklığının verimli bir biçimde tahmin edilmesi, GPU hızlandırmalı simülasyonla ölçeklenebilir eğitim sağlamak için kullanılabilir. Eğitimde kullanılan veriler şunlardır:

  1. Bir öz-niteli kamera tarafından yakalanan nokta bulutu
  2. Taktik sensör geri bildirim nokta bulut temsili
  3. Kolların ve kavrayıcıların eklem pozisyonları

Toplanan veriler, bir difüzyon politikasının ön eğitiminde kullanılır. Paralel simülasyon için sahnenin dijital ikizi kurulur ve görme ile dokunsal sensörlerin mevcut olduğu bir yapı oluşturulur. Gerçek dünya gösterimlerinde sağlanan güçlü bir ön bilgi, karmaşık ödül mühendisliği olmadan RL keşiflerini yönlendirir.

Two side-by-side panels, each depicting different robotic setups for manipulation tasks: Table-Top Bimanual Setup (left) showing real asset, ego-centric camera, and tactile sensors; Semi-Humanoid Bimanual Setup (right) showing ego-centric camera and tactical sensors.
Şekil 5. Dört dokunma algılama pedi ve bir öz-niteli kamera ile robot kurulumları.

RL ince ayarlanmış politika, keşifleri yeterli hale getirerek yüksek hassasiyetli montaj görevlerinde performansı önemli ölçüde artırır. Görsel tabanlı versiyonlarda gerçek dünyadaki başarı oranlarını yaklaşık %20 artırırken, visuo-taktik versiyonlarda ise %40 oranında bir artış sağlamaktadır. Sim gerçeğe transferde yaklaşık %5-10’luk bir düşüş meydana gelse de, bu oran, simülasyondaki RL ince ayarlamanın sağladığı %30 üzerindeki başarı oranı artışına göre önemsizdir.

Bu çalışma, büyük ölçekli simülasyon kullanarak bimanuel visuo-taktik politikalar için RL simgerçek transferinin başarılı örneklerinden biridir.

Özet

Robot öğrenimi‘ndeki gelişmeler, robotların karmaşık becerileri simülasyondan gerçeğe nasıl kazandığını ve aktardığını değiştirmektedir. NeRD, daha doğru dinamik tahminleri sağlarken, RSE, insan gösterimlerinden ustaca manipülasyon öğrenmeyi basitleştirir; VT-Refine ise sağlam bir bimanuel montaj için görme ile dokunun birleşimini sağlar. Bu yaklaşımlar, ölçeklenebilir, veriye dayalı öğrenmenin robotik ve insan yetenekleri arasındaki boşluğu nasıl daralttığını göstermektedir.

Daha fazla bilgi edinmek ve CoRL ve Humanoids, 27 Eylül-2 Ekim tarihleri arasında Kore’nin Seul kentinde gerçekleşen etkinliklerde NVIDIA araştırmalarının görülmesini sağlamak için aşağıdaki kaynaklara göz atabilirsiniz:

Bu yazı, geliştiricilere NVIDIA Araştırma‘nın fiziksel yapay zeka ve robotik uygulamaları alanındaki son yeniliklerle ilgili daha derin bir içgörü sağlamak amacıyla oluşturulan NVIDIA Robotics Araştırma ve Geliştirme Bülteni (R2D2) kapsamında yer almaktadır.

CoRL ve Humanoids etkinliklerinde sunulan araştırmalar hakkında daha fazla bilgi edinmek için, CoRL ve Humanoids‘a göz atmayı unutmayın; bu etkinlik 27 Eylül – 2 Ekim tarihlerinde Seul, Kore’de gerçekleşecektir.

Ayrıca, 50 ev içi görevi ve 10,000 tele-operasyon gösterimini içeren bir robotik benchmark olan 2025 BEHAVIOR Challenge etkinliğine katılmayı düşünebilirsiniz.

Gelişmelerden haberdar olmak için newsletter bültenimize abone olmayı ve NVIDIA Robotics’i YouTube, Discord ve NVIDIA Geliştirici Forumları üzerinden takip etmeyi unutmayın. Robotik yolculuğunuza başlamak için ücretsiz NVIDIA Robotik Temel kursları’na kaydolabilirsiniz.

Teşekkürler

Bu yazıda bahsedilen araştırmalara katkıda bulunan tüm araştırmacılara teşekkür ederiz: Arsalan Mousavian, Balakumar Sundaralingam, Binghao Huang, Dieter Fox, Eric Heiden, Iretiayo Akinola, Jie Xu, Liang-Yan Gui, Liuyu Bian, Miles Macklin, Rowland O’Flaherty, Sirui Xu, Wei Yang, Xiaolong Wang, Yashraj Narang, Yunzhu Li, Yu-Wei Chao, Yu-Xiong Wang.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri