SON DAKİKA

Nvdia

NVIDIA Cosmos Reason ile Fiziksel AI Modelleri Eğitmek İçin Sentetik Veri Setleri Oluşturma

Bir yapay zeka sistemi, olası bir kaza ile fiziksel olarak imkansız bir olay arasındaki farkı nasıl anlayabilir? Ya da insanlar, nesneler ve çevreler arasındaki çok adımlı etkileşimleri bir kenar durumu senaryosunda nasıl planlayabilir? Bu sorular, robotların dünyayı nasıl manipüle ettikleri, otonom araçların anlık kararlar aldığı ve sanal ajanların gerçekliği nasıl simüle ettiği gibi fiziksel zeka ile ilgili soruların çekirdeğini oluşturuyor.

NVIDIA Cosmos Reason, dünyayı anlama ve mantık yürütme yetenekleriyle donatılmış bir dünya temelli model olarak tasarlandı. Uzay, zaman ve fizik anlayışlarıyla eğitilen bu model, sentetik verileri eleştirebilir ve robotlar ile otonom araçların daha gerçekçi bir şekilde hareket etmelerini sağlamak için özenle hazırlanmış veri setleri oluşturabilir. Bu yazı, Cosmos Reason’ın nasıl geliştirildiğini, nerelerde kullanıldığını ve fiziksel AI görevleri için modeli çalıştırmak üzere açıkça erişilebilen model kontrol noktaları ve scriptler hakkında bilgi verecektir.

NVIDIA Cosmos Fiziksel AI İçin Dünya Temelli Modeller

Cosmos, WFM geliştirme platformu olarak işlev görüyor. Temelini oluşturan Cosmos WFMs, önceden eğitilmiş, çoklu moda sahip modellerdir. Bu modeller, fiziksel dünyaları yeniden oluşturmak ve fiziksel AI sistemlerini eğitmek için video biçiminde dünya durumlarını anlayıp üretmek için tasarlandı.

Bu modeller, 20 milyon saatten fazla robotik ve sürüş verisinden öğrenerek, çevrelerin zamanla nasıl değiştiğini öngörebiliyor veya sahneleri yeni koşullara uyarlayabiliyor. NVIDIA Cosmos Predict ile geliştiriciler, metin, görüntü veya video aracılığıyla gelecekteki kareleri üretebilirken; NVIDIA Cosmos Transfer ile videoların aydınlatmalarını değiştirip ortamlarını değiştirebilirler. Cosmos, veri hazırlamayı, verileri tokenize etmeyi ve belirli robotlar veya otonom sistemler için veya daha ileri görevler için modelleri yeniden eğiterek süreci destekleyen araçlar da sunar.

Cosmos Reason ile Ölçeklenebilir Robotik Eğitim Verisi

NVIDIA GTC 2025’te ilk kez tanıtılan Cosmos Reason, sentetik verilerin üretilmesi ve düzenlenmesini dönüştürmek üzere kullanılabilir. Bu model, görsel girdileri yorumlayan, verilen metin isteminin bağlamında analiz eden, mantık zinciri ile cevapları ödüllendiren ve en uygun kararlar veya başlıklar üreten açık ve mekânsal zaman bilincine sahip mantıklı bir modeldir.

A diagram showing the Cosmos Reason process: on the left, video and text inputs enter the model as tokens; in the center, the model processes the information and generates step-by-step reasoning with a large language model backbone to produce a final text response for real-world decision-making.
Şekil 1. Cosmos Reason video ve metin alır, adım adım düşünür ve pekiştirme öğrenmesi ile optimal kararlar alır.

Cosmos Reason’ın İçi

Cosmos Reason, çoklu mod algısı ve gerçek dünya karar verme süreçlerini birleştiren denetimli ince ayar (SFT) ve pekiştirme öğrenimi ile geliştirilmiştir:

  • Fiziksel AI SFT: Gerçek dünya mantığına odaklanır. Obje uygunlukları (örneğin “bir tava ısı iletimi yapar”), aksiyon zincirleri (çok adımlı planlar) ve mekânsal uygulanabilirlik (örneğin “bir insan duvardan geçemez”) gibi konuları öğrenir.
  • Bedensel kararlar için pekiştirme öğrenimi: Cosmos Reason’da uzun mantık zinciri düşünme yeteneği, küçük bir eğitim boyutuyla öğrenmesini mümkün kılarken, ayrılmış test senaryolarına genelleme yapabilir. “Zaman ok” gibi doğrulanabilir fiziksel AI ödülleri, insan etiketlemesi olmadan dünya dinamiklerinin öğrenilmesini sağlar.

Cosmos Reason’ın Sağduyu Üzerine Test Edilmesi

Cosmos Reason, hem video hem de metin kullanarak gerçek dünya fiziksel durumlarını anlama konusunda oldukça başarılıdır. BridgeData V2, RoboVQA ve Agibot gibi benchmarklarda değerlendirildiğinde model, güçlü bir sağduyu mantığı ve durum bilinci gösteriyor.

Fiziksel AI görevleri üzerinde ince ayar yapmak, temel görüş-dil modelinin performansını %10’dan fazla artırırken, pekiştirme öğrenimi ek bir %5 kazanç sağlıyor. Ortalama olarak, Cosmos Reason, anahtar benchmarklarda 65.7 puan alarak robotik, otonom araçlar ve bedensel ajanlar için yüksek bir hedef belirliyor.

Yine de iyileştirme için alan mevcut: yüksek kaliteli, görev odaklı düzenlenmiş veriler üzerinde son eğitim yapmak ve devam eden pekiştirme öğrenimi, Cosmos Reason’ın performansını daha da artırabilir.

Sağduyu BridgeData V2 RoboVQA Agibot HoloAssist AV RoboFail Ortalama
56.2 73.5 86.8 54.2 60 67 62.0 65.7
Tablo 1. Cosmos Reason’ın fiziksel sağduyu ve bedensel akıl yürütme benchmarklarındaki performans sonuçları

Cosmos Reason Nasıl Kullanılır?

Geliştiriciler, Hugging Face üzerinden model kontrol noktalarını indirip, GitHub üzerinden çıkarım scriptleri ve son eğitim içeriklerine ulaşabilirler.

Model, düşük çözünürlükte video girişi alır (örneğin, 604×480) ve geliştiricinin niyetini belirten bir metin istemi ile yönlendirilir. Bu metin, modelin aşama aşama düşünmesini ve buna göre yanıt vermesini sağlar. Geliştiriciler ayrıca istem yükseltici modelini kullanarak metin istemlerini geliştirebilirler.

Cosmos WFMs, NVIDIA AI üzerinde en iyi performans için optimize edilmiştir. Modelleri çalıştırmak için geliştiriciler, Docker ortamı kurabilir veya kendi ortamlarında çalıştırabilirler.

Büyük endüstriyel iş yükleri için ve görünüm AI hatlarını çalıştırmak üzere, geliştiriciler NVIDIA Blackwell GB200 gücünü kullanarak NVIDIA DGX Cloud üzerinde hızlandırılmış çıkarım gerçekleştirebilirler. Bunun için NVIDIA Hopper H100 veya NVIDIA Ampere A100 GPU’ları ile çıkarım scriptleri kullanılarak işlem yapılabilir.

Cosmos WFMs, yaygın sentetik veri üretim süreçlerini destekleyerek, robotik sistemlerin etkili bir şekilde eğitimini sağlar. Cosmos Reason, Cosmos Predict için çeşitli ve gerçekçi istemler üreterek video üzerinden yüksek kaliteli sentetik veri düzenler. Hepsi birlikte, NVIDIA Isaac GR00T Hayaller gibi iş akışlarını güçlendirerek, fiziksel olarak doğru hareket verilerini ölçekli olarak üretir.

NVIDIA Omniverse ile yüksek kalite simülasyonla entegre olan Cosmos, veri üretiminden konuşlandırmaya kadar tüm süreci hızlandırarak, robotik geliştirme süreçlerini gerçek dünya verilerinin sınırlamalarının ötesine taşır.

Başlamak için

Modeli denemeye başlamak için Hugging Face üzerinden indirin.

Özelleştirilmiş veri için çıkarım ve son eğitim scriptlerine GitHub’dan erişin.

Cosmos dökümantasyonunu keşfedin; ayrıntılı öğreticiler, uygulama detayları ve pratik kullanımlar için gerekli bilgileri sağlayın.

NVIDIA kurucusu ve CEO’su Jensen Huang tarafından yapılan COMPUTEX ana konuşmasını ve NVIDIA’nın GTC Taipei 2025 oturumlarını izleyin.

GTC Taipei’deki Cosmos Reason tanıtımı ve diğer önemli fiziksel AI duyuruları hakkında bilgi almak için, OpenUSD Insiders canlı yayınını izleyin, 28 Mayıs Çarşamba, saat 11’de PDT.

En son gelişmelerden haberdar olmak için NVIDIA haberlerine abone olun ve NVIDIA Omniverse kanalını takip edin.

  • Omniverse geliştirici sayfamızı ziyaret edin, başlamak için ihtiyacınız olan tüm bilgileri edinin.
  • Yeni kendin öğrenme tabanlı Learn OpenUSD eğitim müfredatını dahil eden AçıkUSD kaynaklarıyla bağlantı kurun.
  • Omniverse Geliştirici Topluluğu ile iletişim kurun.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri