NVIDIA NeMo Agent Araç Seti ile Fiziksel Yapay Zeka için Ölçeklenebilir Gerçekçi Robot Simülasyonu

Fiziksel AI, otonom sistemlerin—robotlar, kendi kendine giden araçlar ve akıllı alanlar gibi—gerçek dünyayı algılayabilmesini, anlayabilmesini ve akıllıca hareket edebilmesini sağlar. Ancak, bu karmaşık sistemlerin etkili bir şekilde eğitilmesi, büyük ve çeşitli veri kümeleri gerektirir. Gerçek dünya verisi toplayarak çalışmak genellikle maliyetli, zaman alıcı ve güvenlik ile pratik kısıtlamalarla sınırlıdır.

Bunu aşmak için geliştiriciler ve robotik uzmanlar sentetik veri üretimi (SDG) kullanarak hızlı bir şekilde çeşitli ve gerçekçi senaryolar oluşturmaktadır. Ancak, mevcut SDG çoğunlukla manuel olup, sınırlı araçlar sebebiyle tam otomasyona geçmek zordur. Gerçekten hızlı ve ölçeklenebilir bir gelişme sağlamak için, akıl yürütme modelleri ile genel yapay zeka (AGI) modellerini bir araya getiren çok ajanslı sistemler kritik bir rol oynamaktadır. Bu sistemler, geliştiricilerin karmaşık görevleri, uzmanlaşmış AI ajanları ağı ile ele almasına olanak tanıyarak sentetik veri kalitesini artırır ve fiziksel AI gelişimini hızlandırır.

Bu blog yazısı, robot eğitimini ve dağıtımını hızlandıran yüksek kaliteli sentetik veri setlerini sistematik olarak üretmek için generatif AI kullanan bir çok ajanslı iş akışının nasıl gerçekleştiğini göstermektedir. Bu işlem, NVIDIA NeMo Agent aracı, NVIDIA Omniverse, OpenUSD, NVIDIA Cosmos ve NVIDIA NIM mikro hizmetleri kullanarak 3D ortamları geliştirip, gerçekliği artırarak robotik politika eğitimi için sentetik veriyi ölçeklendiriyor.

A grid of 25 video thumbnails transitions from black and white to bright, pastel colors, then to realistic colors. — *Video 1. NVIDIA NeMo Agent aracı, 3D ortam artırımı (derinlik ve segmentasyon girdileri) ile başlayıp, sentetik veri üretimine (Cosmos çıktısı) geçiş yapma.*

Çok Ajanlı SDG İş Akışı Genel Bakış

Bu bölüm, tam otomatik SDG iş akışını ve robotik geliştiricilerin karşılaştığı ana zorlukları nasıl ele aldığını açıklamaktadır.

Depo ortamları için sağlam gezinme sistemleri geliştiren robotik uzmanlar, genellikle varsayılan simülasyon kurulumlarının karmaşıklıkları ve engel çeşitliliği açısından yeterli olmaması gibi sınırlamalarla karşılaşırlar. Algoritmaların sağlamlığını ve uyum sağlama yeteneğini artırmak için sentetik eğitim ortamlarını çeşitli ve gerçekçi senaryolar ile genişletmek gereklidir.

Ancak, bu tür ortamların ölçeklenmesi genellikle 3D iş akışlarında derin uzmanlık veya gelişmiş yönlendirme teknikleri gerektirir. Bu durum, robotik geliştiriciler için engeller yaratmaktadır. Bunu basit hale getirip robotik geliştiricilerin yüksek kaliteli SDG’yi hızlı bir şekilde üretmelerini sağlamak amacıyla doğal dil ile yönlendirilen, tamamen otomatik bir SDG üretim ve artırma iş akışı sunulmaktadır.

Aşağıdaki diyagram, çok ajanslı sentetik veri üretim iş akışının temel bileşenlerini göstermektedir.

A workflow diagram of a robotics developer using the Agent toolkit. — *Şekil 1. Farklı türdeki ajanların metin istemlerini artırılmış bir çıktıya dönüştürmesini gösteren çok ajanlı SDG iş akışı.*

Geliştirici, işlemi tek bir istem ile başlatır:

Lütfen aşağıdaki görevi yerine getirmek için plan yapın. 

Öncelikle, /usd/Scene_Blox dizininde bulunan sceneblox sahnesini bulup açın.
Sahne yüklendikten sonra, (-18.222, -17.081) noktasından (-18.904, -26.693) noktasına ilk bir robot yolu oluşturun.

Ardından, depoya uygun varlıklar (taşınabilir kutular, depolama konteynerleri ve mobil tekerlekli arabalar) arayın.

Daha sonra, robotun etrafında dolaşması gereken engeller olarak bunlardan ikisini sahneye yerleştirin.

Engelleri yerleştirdikten sonra, aynı başlangıç ve bitiş noktalarını kullanarak, robotun eklediğiniz engellerden kaçınmasını sağlayacak yeni bir robot yolu oluşturun.
Her iki yol da ayarlandıktan sonra, robotun navigasyonunu gösteren viewport’un bir videosunu çekin.

Son olarak, yakalanan videoyu fotogerçekçi bir yansıtma ile geliştirerek modern bir e-ticaret dağıtım merkezi görünümüne dönüştürün. Geliştirme için ayrıntılı bir istem oluşturun; direkt gün ışığının büyük pencerelerden ve skylitlerden süzüldüğü, her yerde çok parlak doğal ışık bulunan, parlatılmış beton zeminlerin güneşi yansıttığı, uzun metal rafların düzenli bir şekilde sıralandığı, görünür konveyor sistemlerinin olduğu, organize paket istasyonlarının bulunduğu modern bir e-ticaret dağıtım merkezi olmalı. Depo, temiz beyaz duvarlar, düzenli envanter alanları ve profesyonel bir gündüz atmosferine sahip olmalıdır. Son video, güneşli bir günde gerçek bir e-ticaret dağıtım merkezinden alınmış gibi görünmelidir.

Bu, gerekli görevleri iş birliği içinde yerine getirmek için özel ajanlardan oluşan bir ağı etkinleştirir:

Planlama ajanı: Kullanıcının yüksek düzeydeki hedefini yorumlar, bunu sıralı, uygulanabilir adımlara böler ve diğer ajansları bu adımları verimli bir şekilde yerine getirmek üzere koordine eder. Bu, USD Search NIM, USD Code NIM ve çevre varyasyonu için bir AI anlama ajanı çağırır; bu süreç, sahnede uygun 3D varlıkların eklenmesi gibi görevleri içerir.
Gerçekçilik artırma ajanı: Video çıktılarının ve çeşitli ortamların gerçekçilik ve görsel sadakatini artırmak için dünya temel modelleri (WFM’ler) kullanarak, yüksek kaliteli ve sağlam eğitim verileri sağlamak için Omniverse’ten yakalanan gerçek simülasyonları kullanır.
Akıl yürütme ajanı: Üretilen videoları değerlendirerek bunların gezinme politika eğitimi için uygunluğunu belirler, kritik değerlendirmeler yapar ve kalite kontrolü sağlar.
Destek yardımcı ajan: Omniverse’e sahneleri yükleme ve sonraki ajan işlemleri için video çıktıları yakalama gibi rutin alt görevleri düzene sokar, böylece tamamen otomatik bir uçtan uca iş akışı sağlar.

Tüm bu AI ve yardımcı ajanslar, Agent aracı, çok ajanlı orkestra sistemi ve birleştirilmiş bir yapılandırma sistemi kullanılarak SDG iş akışını otomatik hale getirmek için organize edilir. Agent açık kaynak aracı, çok ajanlı sistemler hakkında bilgi verir, maliyetler ve performans izlemeye olanak tanır, optimizasyon fırsatlarını açığa çıkarır.

ChatUSD_Planning Locate and open the sceneblox scene in /usd/Scene_Blox. Create an initial robot path from (-18.222, -17.081) to (-18.904, -26.693). Locate warehouse assets (plastic bins, cardboard boxes, hand trucks). Add two obstacles for navigation. Create a second path avoiding obstacles. Capture viewport video of navigation. Enhance video into a photorealistic e-commerce fulfillment center.
------------------------------------
PLAN: Create robot navigation paths with obstacles and enhance the video to a photorealistic e-commerce fulfillment center
Step 1: Open the sceneblox scene
- Use `kit_open_stage` with path `/usd/Scene_Blox` to load the scene.

Step 2: Create initial robot path
- Use `robot_path {"start_point": [-18.222, -17.081], "end_point": [-18.904, -26.693]}` to generate the first navigation path.

Step 3: Locate warehouse-appropriate assets
- Use `ChatUSD_USDSearch` to search for assets such as plastic storage bins, cardboard shipping boxes, and wheeled hand trucks in the available directories.

Step 4: Place obstacles in the scene
- Use `create_obstacles_along_path {"assets": ["path_to_selected_asset_1", "path_to_selected_asset_2"]}` to add two obstacles along the robot's navigation path.

Step 5: Create alternate robot path avoiding obstacles
- Use `robot_path {"start_point": [-18.222, -17.081], "end_point": [-18.904, -26.693]}` to generate a new path that avoids the placed obstacles.

Step 6: Capture a video of the viewport showing robot navigation
- Use `kit_videocapture /temp/robot_navigation.mp4` to record the animation.

Step 7: Enhance the video to a photorealistic fulfillment center
- Use `cosmos_transfer` with the prompt: "Transform the video into a photorealistic modern e-commerce fulfillment center with direct sunlight streaming through large windows and skylights, polished concrete floors reflecting the sunlight, tall metal shelving units organized in rows, visible conveyor systems, neatly arranged packing stations, clean white walls, organized inventory areas, and a professional daytime atmosphere resembling real footage during a sunny day."

Adım adım sonuç, başlangıçta verilen kullanıcı isteminin anlaşılması temelinde üretilmektedir.

Teknik Önizleme

Bu bölüm, tam otomatik, doğal dil ile yönlendirilen çok ajanslı SDG iş akışını mümkün kılan mimari ve ana bileşenleri ele almaktadır.

Temel Omniverse Örnek Uzantıları

omni.ai.aiq.sdg
Bu örnek uzantı, SDG iş akışının temelini oluşturur. Birçok ajan sistemini koordine eder, istemleri yorumlar, sahneleri değiştirir ve Omniverse kit içindeki tüm video oluşturma sürecini kontrol eder. Ana işlevleri arasında:
- İstem yorumlama: Kullanıcı hedeflerini uygulanabilir adımlara ayırmak için bir planlama ajansı kullanır.
- Sahne anlama: USD sahnesinin nesne meta verilerini, mekansal ilişkilerini ve düzenini sorgular.
- Sahne değiştirme: USD Code NIM ve USD Search NIM kullanarak nesneleri ekleyip hareket ettirecek otomatik Python kodları oluşturur ve çalıştırır.
- Kayıt kontrolü: Renderlenmiş videoları viewport’tan alır ve isteğe bağlı değişkenleri destekler.
- Gerçekçilik ve doğrulama: Video geliştirme ve içerik değerlendirmesi için Cosmos NIM (ör. cosmos_transfer, cosmos_reason) ile entegre olur.
omni.ai.langchain.agent.headless
Bu başsız otomasyon sistemi uzantısı, tüm SDG iş akışının bir GUI olmadan çalıştırılmasına olanak tanır. Bulut dağıtımı ve toplu işlem için idealdir; bir USD sahnesi yükleyebilir, ajanları çalıştırabilir, video sentezini gerçekleştirebilir ve çıktıları kaydedebilir—tüm bu işlemler API çağrıları ile kullanıcı etkileşimi olmadan yapılabilir.

Sistem Mimarisi

SDG iş akışı, eş zamanlı çalışan iki işlevsel sisteme ayrılmıştır:

1. Senaryo Tanımı Sistemi

Bu sistem, belirli nesne türlerini, konumlarını ve mekansal ilişkilerini kontrol etmek için tasarlanmış metin istemlerine dayalı olarak sahne varyasyonları üretir.

İstem üretimi: Yapılandırılabilir kurallar veya şablonlardan (ör. “Robota yakın 3 kırmızı kupa yerleştir”) yola çıkarak sistem yüzlerce veya binlerce eşsiz istem üretebilir.
İstem yönetimi: İstemler saklanabilir, sürümlenebilir ve yeniden kullanılabilir, böylece tekrarlanabilir deneyler mümkün kılınır.
API entegrasyonu: Her istem, basit bir HTTP API çağrısıyla video sentez sistemine gönderilir.

2. Video Sentez Sistemi

Bu sistem, her bir istemi yorumlar ve karşılık gelen bir video üretir. Bulut ölçeğinde dağıtım için NVIDIA NIM çerçevesi ile inşa edilmiştir.

USD sahnesi yükleme: Robot animasyonu ve statik bir ortam içeren önceden yapılandırılmış bir sahneyi açar.
Çok ajanslı yürütme: Temel ajans, istemi yorumlar, eşleşen varlıkları USD Search NIM ile arar ve sahneyi betimlenen hareketler ile değiştirir.
Animasyon ve kayıt: Sahne ayarlandıktan sonra, robot animasyonunu gerçekleştirir ve viewport bir MP4 video olarak kaydedilir.
Son işlem: Videoya isteğe bağlı olarak cosmos_transfer uygulayıp, kalite ve geçerlilik için cosmos_reason ile doğrulama yapar.
Çıktı teslimatı: Nihai video bir bulut sunucusuna ya da dosya sunucusuna kaydedilir ve çağıran servise bir URL döner.

Uçtan Uca İş Akışı

Toplu istem üretimi: Senaryo sistemi, farklı nesne yapılandırmaları ve sahne varyasyonlarını tanımlayan istemleri üretir.
İstem gönderimi: Her istem sentez API’sine gönderilir.
Sahne montajı ve kaydı: Sistem sahneyi inşa eder, animasyonu çalıştırır ve videoyu kaydeder.
Geliştirme ve doğrulama: Stil transferi uygulanır ve sonuç değerlendirilir.
Çıktı toplama: Video bağlantıları toplanır ve eğitim veri setinin bir araya getirilmesi için döner.

Tasarım Amaçları

Özetlemek gerekirse, çok ajanslı SDG iş akışının tasarımı aşağıdaki hedeflerle şekillendirilmiştir:

Ölçeklenebilirlik: Manuel, tek sahne oluşturma sürecinden büyük ölçekli, otomatik veri üretimine geçiş.
Geliştirici verimliliği: Derin 3D veya USD betik uzmanlığı gerekliliğini ortadan kaldırma; geliştiricilerin yalnızca sahneyi sade bir dilde tanımlaması yeterlidir.
Çeşitlilik ve kapsam: Robotik modellerde genel başarıyı artırmak amacıyla geniş bir eğitim senaryosu yelpazesi hızlı bir şekilde üretilebilmelidir.
Modülarite: Ek ajanları, varlıkları veya aşağı akış servislerini entegre etme kolaylığı sağlamak.

İlerleyen Adımlar

Fiziksel AI’nin hızlı gelişimi, verimli ve ölçeklenebilir eğitim verisine bağlıdır. Gösterildiği gibi, çok ajanslı sistemler, geleneksel, manuel sentetik veri üretiminin sınırlamalarına güçlü bir çözüm sunmaktadır. Yüksek kaliteli sentetik veri setlerinin otomatik olarak üretilmesi, robotik politika eğitimini, doğrulamasını ve nihayetinde gerçek dünya dağıtımını önemli ölçüde hızlandırabilir.

Bu teknolojilerin derinlemesine keşfine dalın:

Agent aracı belgelerini inceleyin ve ajanslı iş akışları ile başlamaya başlayın.
NVIDIA Omniverse geliştirici kaynakları ile generatif fiziksel AI destekli uygulamalar geliştirmeye başlayın.
Simülasyon için Evrensel Sahne Tanımının gücünü anlayın ve NVIDIA Cosmos dünya temel modellerinin fotogerçekçi sentetik veri üretimindeki yeteneklerini keşfedin.
Optimizasyonlu çıkarım mikro hizmetleri ile AI dağıtımlarınızı hızlandırın.

NVIDIA kurucusu ve CEO’su Jensen Huang’ın VivaTech 2025’tekiNVIDIA GTC Paris açılış konuşmasını izleyin ve GTC Paris oturumlarını keşfedin.

Güncel kalmak için NVIDIA haberlerine abone olun ve NVIDIA Omniverse’u Discord ve YouTube üzerinden takip edin.

Gelişmeye başlamak için tüm gerekenler için Omniverse geliştirici sayfamızı ziyaret edin.
Aşağıda yeni kendin hızlandırılmış Öğrenme OpenUSD eğitim müfredatı da dahil olmak üzere bir koleksiyona erişim sağlayın.
Gelecek OpenUSD Insider canlı yayınlarına katılın ve NVIDIA Geliştirici Topluluğu ile bağlantı kurun.

Kendi uygulamalarınızı geliştirmek ve geliştirmek için hızlıca geliştirici başlangıç kitleri ile başlamaya başlayın.

SON DAKİKA