SON DAKİKA

Nvdia

NVIDIA Cosmos Predict-2 ile Özel Fiziksel AI Temel Modelleri Geliştirme

Akıllı robotlar ve otonom araçlar (AV) geliştirmek, fiziksel AI modelleri ile gerçek dünya dinamiklerini anlamakla başlar. Bu modeller, otonom makinelerin gerçek dünya fiziği ve etkileşimleri hakkında bilgi edinmesini sağlayan sentetik veri üretimini (SDG) hızlandırmanın yanı sıra, özel görevler için yeniden eğitim yapılabilecek veya farklı çıktı türlerine adapte edilebilecek temel modeller olarak iki kritik rol üstlenir.

Cosmos Predict-1, bu amaçlar doğrultusunda tasarlandı ve gerçekçi, fizik bilinciyle gelecekteki dünya durumlarını üretebilir.

Şimdi ise Cosmos Predict-2, hız, görsel kalite ve özelleştirme alanında büyük geliştirmeler sağlıyor. Bu yazıda, modelin nasıl çalıştığını ve belirli alanlar için nasıl yeniden eğitileceğini öğreneceksiniz.

Cosmos Predict-2

Cosmos Predict-2, hız, ölçeklenebilirlik ve kullanım durumları ile donanım platformları arasında çözünürlük ve kare hızı esnekliği sağlayan mimari iyileştirmeler içeren bir dünya temelli modeldir. Görev karmaşıklığı için optimize edilmiş iki model varyantı vardır:

  • Cosmos Predict-2 2B: Predict-1’e göre daha hızlı çıkarım ve daha düşük bellek kullanımı sunar; prototipleme, düşük gecikmeli uygulamalar ve kenar dağıtımları için idealdir.
  • Cosmos Predict-2 14B: Karmaşık sahne anlayışı, genişletilmiş zaman tutarlılığı ve doğru komutlar gerektiren yüksek-fidelity dünya modelleme görevleri için tasarlanmıştır.

Geliştiriciler, modelin metin-görüntü modelini kullanarak bir önizleme oluşturmaya başlayabilirler; ardından video2world modelini koşullandırarak tutarlı, fiziksel olarak doğru dünya durumlarını video olarak üretebilirler. Bu, tekrar eden istekleri ve senaryo tasarımını hızlandırır.

GIF showing robot arm pouring a beverage into a glass.
Şekil 1. Üretilen video nesne etkileşimi sırasında fiziksel doğruluğu koruyor
GIF of a car driving down a street with parked vehicles and a visible Stop sign near a curve.
Şekil 2. Metin tutarlılığı ve sağduyuyu artırın; bir kavşaktaki dur işareti gibi

Cosmos Predict-2, aşağıda detaylı olarak belirtilen çoklu çözünürlük ve kare hızı seçenekleri sunacaktır:

  • Çözünürlük: 704p (~ 720p) ve 480p desteği sunar. 480p seçeneği, yüksek çözünürlüğe ihtiyaç duyulmadığında daha hızlı bir işlem sunar.
  • Kare hızı: Şu anda 10 fps ve 16 fps mevcut, 24 fps desteği yakında gelecek—bu, 10 Hz simülasyonu ve AV eğitim hatları için idealdir.

Çıkarım ve Performans Optimizasyonları

Cosmos Predict-2, geniş bir donanım ve kullanım durumu yelpazesinde hızlı ve esnek çıkarım için tasarlanmıştır.

Prototiplemek veya düşük gecikmeli uygulamalar için, 2B model varyantı hızlı performans sunmaktadır; NVIDIA GB200 NVL72, DGX B200 ve RTX PRO 6000 gibi grafik kartları üzerinde 5 saniyenin altında görüntü önizlemeleri üretebilir. Daha karmaşık görevler için gereken yüksek kalite ve zaman tutarlılığı, 14B varyantının GB200 ve B200 sistemlerinde hızlı dönüş süreleri sağlarken kalitenin arttırılmasını sağlar.

Kurulum talimatları için nvidia-cosmos/cosmos-predict2 GitHub deposunu ziyaret edin.

Cosmos Modellerini Aşağı Akış Temel Modeller İçin Yeniden Eğitme

Geliştiriciler, Cosmos Predict-2’yi robotik, AV ve endüstriyel otomasyon gibi uygulamalara özel hale getirmek için yeniden eğitebilirler. Bu bölüm, GR00T-Dreams projesini örnek olarak kullanarak modelin nasıl yeniden eğitileceğini açıklar. Ayrıca optimal performans sağlamak için değerlendirme yöntemleri hakkında bilgi verir.

Bu bölümde yer alan adımları takip ederek, belirli bir görev için özel sentetik eğitim verisi üretmek için modeli yeniden eğitebilirsiniz.

Alan Donanım Özel Manipülasyon Örnek Uygulama
Robotik Talimat kontrolü, nesne manipülasyonu Robot kolun, farklı sap güçleriyle elma alması
AV’lar Çoklu görünüm üretimi, kenar durumu simülasyonu Yağmurlu otoyolda lidar/kamera senkronizasyonu simülasyonu
Endüstriyel Eylem koşullu iş akışları Konveyör bant robotları için öngörücü bakım
Görüntü Kamera poz koşullandırması Tek görüntülerden 3D tutarlı videolar

Tablo 1. Cosmos Predict-2’nin yeniden eğitim kullanım durumları, donanım özel manipülasyon ve robotik, otonom araçlar, endüstriyel otomasyon ve görüntü alanlarındaki örnek uygulamaları vurgulamaktadır.

Adım 1: Verileri Hazırlayın

Yaklaşık 100 saatlik teleoperasyon videosu toplayın. Veri küratörü kullanarak klipleri segmentlere ayırın. Verilerin, kurulumunuzu—robot modeli, aydınlatma ve nesne tipleri—yansıttığından emin olun ve metin ile görsel eşleşmesi sağlayın.

Başlıklar için, geliştiriciler herhangi bir görsel dil modelini kullanabilir; buna Cosmos Reason da dahildir (detaylar için Adım 4’e bakın).

Adım 2: Modeli Yeniden Eğitin

Hazırlanmış video-metni çiftlerini kullanarak Cosmos Predict-2’yi belirli görev ve ortamınızda yeniden eğitin. Yeniden eğitim komut dosyalarını nvidia-cosmos/cosmos-predict2 GitHub deposundan edinebilirsiniz.

Adım 3: Sentetik Senaryolar Üretin

Modeli “Düşük ışık altında, ezik elmayı al” gibi bir metinle yönlendirin. Domain-spesifik “hayal” videoları oluşturmak için modeli ilk görüntü ile de yönlendirebilirsiniz.

Adım 4: Fiziksel Doğruluğu Doğrulayın

Cosmos Reason, görsel girişi metin istemiyle yorumlayabilen açık, mekansal ve zamansal olarak duyarlı bir akıl yürütme modeli‘dir; düşünce zinciri reasoning yapar ve optimal metin kararları veya başlıklar üretir. Üretilen verileri değerlendirmeye yardımcı olur. Bu örnekte, üretilen verileri veya “hayalleri” eleştirir. Örneğin:

  • Robot elmayı düzgün bir şekilde kavrayabiliyor mu?
  • Eklemlerdeki açıların sınırlar içinde mi?
  • Nesne çarpışmaları veya hareket hataları var mı?
Diagram showing a workflow where user video data is curated, Cosmos Predict-2 is post-trained using scripts, evaluated, and refined through additional manual or synthetic data to specialized build robotics, vision, and AV datasets.
Şekil 3. Cosmos Predict-2 kullanarak yeniden eğitim iş akışı

Yeniden eğitim, üretim, doğrulama döngüsü, sentetik veri kalitesini ve aşağı akış model performansını iteratif olarak iyileştirmeye olanak tanır.

Geliştiriciler ayrıca Cosmos Transfer‘ı kullanarak, farklı ortamlar veya aydınlatma koşulları gibi çeşitlilik eklemek için veri setlerini genişletebilir. Sentetik veri seti artırımı için Cosmos Transfer kullanımı hakkında daha fazla bilgi edinebilirsiniz.

NVIDIA Araştırmasının Cosmos Predict Kullanımı

NVIDIA Araştırma, Cosmos Predict-1‘i gelişmiş video ve 3D uygulamaları için kullanmaktadır. DiffusionRenderer yöntemi, Cosmos ile entegre edilmiştir ve yüksek kaliteli sentetik veriler ile gerçek dünya videolarını birleştirerek aydınlatma realizmini, geometriyi ve malzeme doğruluğunu iyileştirir; bu sayede uzun video dizilerinde genel amaçlı aydınlatma kontrolü, rastgeleleştirme ve düzenleme sağlar.

A GIF showing cars driving on a dark highway, which is changed to bright light like daytime, making the training video clearer and more useful.
Şekil 4. DiffusionRenderer, Cosmos Predict-1 tarafından desteklenmektedir; karanlık videoları daha net ve aydınlık hale getirir, böylece otonom araçların daha iyi eğitilmesine yardımcı olur.

Difix3D+, 3D yeniden yapım ve yeni görünüm sentezi üzerinde geliştirmeler sağlamak amacıyla bir adımda diffüzyon modeli olarak çalışmaktadır. Cosmos Predict-1 ile entegre edildiğinde, zaman tutarlılığını artırır, titremeyi azaltır ve detayları netleştirir—yüksek kare hızlı render işlemlerindeki temel zorlukları aşar.

NVIDIA Araştırma, AV geliştirmek için bir sentetik veri üretim hattı oluşturmuştur; buna Cosmos-Drive-Dreams denir. Bu model, HDMap’lere, LiDAR derinliğine ve metin istemlerine dayalı olarak çeşitli sürüş videoları üretir, bu sayede farklı koşullar altında gerçekçi sahneler oluşturabilir ve tek görünümden çoklu görünüm tutarlı videolara genişleyebilir.

Cosmos Predict-2 ile Başlayın

Cosmos Predict-2, robotik, görüntü ve otonom sistemler için fizik bilincine sahip, yüksek bir fidelite ile sentetik veri üretiminde önemli bir sıçrama sağlamaktadır. Daha hızlı çıkarım, ölçeklenebilir performans ve esnek çözünürlük ile kare hızı seçenekleriyle; çeşitli alanlar ve donanım platformları arasında uyum sağlamak için tasarlanmıştır.

Cosmos ailesinin diğer dünya temelli modelleri ile birlikte; Cosmos Reason fiziksel AI akıl yürütmesi için ve Cosmos Transfer artırma için, bir bütün döngü sağlar—yeniden eğitim, üretim, doğrulama ve iyileştirme. Bu, alan spesifik modellerin ve daha akıllı, daha güvenli fiziksel AI sistemlerinin geliştirilmesini hızlandırır.

Denemek için Cosmos Predict-2‘ye GitHub’da göz atın. Açık model kontrol noktaları için çıkarım ve yeniden eğitim komut dosyalarını içermektedir. Daha fazla bilgi için nvidia-cosmos GitHub deposunu ziyaret edin.

NVIDIA’nın Hugging Face platformunda yeni açık model sürümlerinden haberdar olmak için takip etmeyi unutmayın.

NVIDIA GTC Paris anahtarı olan NVIDIA GTC Paris etkinliğindeki konuşmaları izleyin ve GTC Paris oturumlarını keşfedin.

NVIDIA Cosmos ve NVIDIA Omniverse, fiziksel AI’yi ilerletmektedir. Abone olarak güncellemelerden haberdar olun: NVIDIA haberleri, ve Omniverse Geliştirici Topluluğu ile canlı yayınlardan fiziksel AI’daki son gelişmeleri izleyebilirsiniz.

Hızla kendi uygulamalarınızı ve hizmetlerinizi geliştirmek için Omniverse geliştirici başlangıç kitlerini kullanarak başlayın.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri