Gelecek nesil, yapay zeka destekli robotlar, humanoidlar ve özerk araçlar, yüksek kaliteli, fizik bilgisiyle desteklenmiş eğitim verilerine bağlıdır. Çeşitli ve temsilci veri setleri olmadan, bu sistemler düzgün bir eğitim alamaz ve gerçek dünyadaki değişkenlikler karşısında zayıf genelleme, sınırlı maruz kalma ve kenar durumlarında öngörülemeyen davranışlarla karşılaşır. Eğitim için geniş kapsamlı gerçek dünya veri setleri toplamak pahalı, zaman alıcıdır ve genellikle kısıtlı olanaklarla sınırlıdır.
NVIDIA Cosmos, bu zorluğun üstesinden gelerek dünya temel model (WFM) geliştirmeyi hızlandırır. Cosmos WFMs, sentetik veri üretimini hızlandırmakta ve bu zorlukları aşmak için aşağı yönde spesifik fiziksel AI modellerinin geliştirilmesi için bir temel oluşturur. Bu yazıda, en son Cosmos WFMs, fiziksel AI’yi geliştiren temel yetenekleri ve bunların nasıl kullanılacağı keşfedilecektir.
Cosmos Transfer ile Fizik Temelli Fotogerçekçi Videolar
Cosmos Transfer WFM, yapısal girdi verilerinden yüksek kaliteli dünya sahneleri üretir. Sahne kompozisyonu ve mekansal hizalama kesin bir biçimde sağlanır.
ControlNet mimarisini kullanan Cosmos Transfer, önceden eğitilmiş bilgiyi koruyarak yapılandırılmış ve tutarlı çıktılar elde edilmesine olanak tanır. Dinamik olarak sentetik ve gerçek dünya temsillerini hizalamak için zamanı ve mekânı kontrol eden haritalar kullanarak sahne kompozisyonu, nesne yerleşimi ve hareket dinamikleri üzerinde ince ayar yapma imkânı sunar.
Girdiler:
- Yapısal görsel veya geometrik veriler: segmentasyon haritaları, derinlik haritaları, kenar haritaları, insan hareket anahtar noktaları, LiDAR taramaları, yollar, HD haritalar ve 3D sınırlayıcı kutular.
- Gerçek veri anotasyonları: kesin hizalama için yüksek kaliteli referanslar.
Çıktı: Kontrol edilen yerleşim, nesne yerleşimi ve hareket ile fotogerçekçi video dizileri.


Şekil 1. Solda, NVIDIA Omniverse’de yaratılan bir sanal simülasyon veya ‘gerçeklik’. Sağda, Cosmos Transfer ile fotogerçekçi dönüşüm.
Ana yetenekler:
- Gerçek dünya fiziğiyle uyumlu ölçeklenebilir, fotogerçekçi sentetik veri üretimi.
- Nesne etkileşimleri ve sahne kompozisyonu üzerinde yapılandırılmış çok modlu girdilerle kontrol.
Kontrollü Sentetik Veri İçin Cosmos Transfer Kullanımı
Üretken AI API’leri ve SDK’ları ile NVIDIA Omniverse, fiziksel AI simülasyonunu hızlandırır. Geliştiriciler, gerçek dünya ortamlarını doğru bir şekilde simüle eden 3D sahneleri oluşturmak için OpenUSD tabanlı NVIDIA Omniverse’i kullanırlar. Bu simülasyonlar, Cosmos Transfer için zemin doğruluğu video girdileri olarak hizmet eder ve anotasyonlar ve metin talimatlarıyla birleştirilir. Cosmos Transfer, çevre, aydınlatma ve görsel koşulları çeşitlendirirken fotogerçekçiliği artırır ve ölçeklenebilir, çeşitli dünya durumları üretir.
Bu iş akışı, yüksek kaliteli eğitim veri setlerinin oluşturulmasını hızlandırır ve AI ajanlarının simülasyondan gerçek dünya uygulamasına etkin bir şekilde genellemesini sağlar.


Cosmos Transfer, gerçekçi aydınlatma, renkler ve dokular sağlayarak Isaac GR00T Şemasını ve Omniverse Özerk Araç Simülasyonu için eğitim amaçlı çeşitli çevresel ve hava koşullarında önemli bir katkı sağlar. Bu fotogerçekçi veriler, modelin eğitiminde ve algı AI için özel robot modelleri gibi GR00T N1 ile simülasyon-g реalitesine geçişi sağlamak için kritik öneme sahiptir.
Cosmos Transfer ile Çıkarım Yapma
Cosmos-Transfer1-7B modelini çıkarım yapmak için kullanabileceğiniz bazı örnek komutlar aşağıda yer almaktadır.
Cosmos Transfer, Hugging Face‘de, NVIDIA Açık Model Lisansı altında açık erişimle mevcuttur. Bir Hugging Face erişim belirteci oluşturun, CLI ile giriş yapın, LlamaGuard-7b şartlarını kabul edin ve Cosmos-Transfer1 GitHub talimatlarını izleyin.
Aşağıdaki komut, Cosmos-Transfer1 için temel modeli, tokenizer’ı ve koruma modellerini indirir:
PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/
Aşağıdaki komut, modeli çalıştırmak için kullanılır. Ayarları bir JSON dosyası kullanarak özelleştirebilirsiniz; bu, bulanıklık, kenar belirleme, derinlik veya segmentasyon ControlNets gibi özellikleri tek başına veya kombinasyon halinde etkinleştirir:
export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py
--checkpoint_dir checkpoints
--input_video_path path/to/input_video.mp4
--video_save_name output_video
--sigma_max 70
--controlnet_specs spec.json
Cosmos WFMs, bir VLA politika modeline post-eğitim yapılabilir; burada video çıktısı, robotların yerine getireceği eylem çıktısıyla değiştirilir. Bir politika modeli, fiziksel AI sisteminin mevcut gözlemlerine ve verilen göreve dayanarak alması gereken eylemleri üretir. İyi eğitilmiş bir WFM, dünya dinamiklerini modelleyebilir ve politika modelinin iyi bir başlangıcı olarak hizmet edebilir.
Cosmos Transfer ile ilgili daha fazla bilgiye GitHub üzerinden ulaşabilirsiniz.
Gelecek Dünya Durumlarını Üretmek İçin Cosmos Predict
Cosmos Predict WFM, metin, video ve başlangıç-bitiş kare dizileri gibi çok modlu girdilerden gelecek dünya durumlarını modellemek için tasarlanmıştır. Zaman tutarlılığını ve kare interpolasyonunu artıran, dönüşümlü tabanlı mimariler kullanır.
Ana yetenekler:
- Metin istemlerinden doğrudan gerçekçi dünya durumları üretir.
- Video dizilerine dayanarak gelecek durumları tahmin eder, eksik kareleri tahmin eder veya hareketi uzatır.
- Başlangıç ve bitiş kareleri arasında çoklu kare üretimi yaparak kesintisiz ve akıcı bir dizi oluşturur.
Cosmos Predict WFM, robotik ve özerk araçlar için aşağı yönde dünya modellerinin eğitimine güçlü bir temel sağlar. Bu modelleri, politika modelleme için video yerine eylem üretmek üzere post-eğitim yapabilirsiniz veya özel algı AI modelleri oluşturmak için görsel-dil anlayışı için uyarlayabilirsiniz.
Akıllı Yönetim İçin Cosmos Reason
Cosmos Reason, hareket, nesne etkileşimleri ve uzaysal-zamansal ilişkileri anlamak için özel olarak tasarlanmış, tamamen özelleştirilebilir çok modlu bir AI akıl yürütme modelidir. zihinsel zincir (CoT) akıl yürütmesi kullanarak, model görsel girişi yorumlar, verilen istem basında sonuçları tahmin eder ve en iyi kararı ödüllendirir. Metne dayalı LLM’lerden farklı olarak, akıl yürütmeyi gerçek dünya fiziğine dayandırarak, net ve bağlama duyarlı yanıtlar üretir.
Girdi: Video gözlemleri ve bir metin tabanlı sorgu veya talimat.
Çıktı: Uzun vadeli CoT akıl yürütmesi ile üretilen metin yanıtı.
Ana yetenekler:
- Nesnelerin nasıl hareket ettiğini, etkileşimde bulunduğunu ve zaman içinde nasıl değiştiğini bilir.
- Girdi gözlemine dayalı olarak bir sonraki en iyi eylemi tahmin eder ve ödüllendirir.
- Karar verme sürecini sürekli olarak geliştirebilir.
- Algı AI ve beden bulunduran AI modelleri oluşturmak için post-eğitim yapmaya uygundur.
Eğitim Süreci:
Cosmos Reason, gerçek dünya senaryolarında akıl yürütme, tahmin etme ve yanıt verme yeteneğini artıran üç aşamada eğitilir.
- Ön Eğitim: Görsel çerçeveleri yapılandırılmış gömme biçiminde işlemek için bir Görsel Dönüştürücü (ViT) kullanılmaktadır; bu, nesne, eylem ve uzaysal ilişkiler için ortak bir anlayış sağlanır.
- Denetimli ince ayar (SFT): Modeli iki temel seviyede fiziksel akıl yürütme üzerine odaklar. Genel ince ayar, çeşitli video-metin veri setlerini kullanarak dilin sağlamlığını ve çok modlu algıyı artırırken; fiziksel AI verileri üzerinde yapılan daha fazla eğitim, modelin gerçek dünya etkileşimlerine dair akıl yürütme yeteneğini geliştirir. Model, nesne davranışlarını ve nesnelerin nasıl kullanılabileceğini öğrenir.

Pekiştirme öğrenimi (RL): Model, farklı akıl yürütme yollarını değerlendirir ve deneme ve ödül geri bildirim yoluyla yalnızca daha iyi bir karar ortaya çıktığında kendini günceller. İnsan etiketli verilere dayanmak yerine, kural tabanlı ödüller kullanılır:
- Varlık tanıma: Nesnelerin ve özelliklerinin doğru bir biçimde tanımlanmasını ödüllendirir.
- Uzaysal kısıtlamalar: Fiziksel olarak imkânsız yerleştirmeleri cezalandırırken, gerçekçi nesne konumlandırmasını güçlendirir.
- Zamansal akıl yürütme: Sebep-sonuç ilişkilerine dayanarak doğru sıralama tahminini teşvik eder.
Başlamak İçin
Cosmos WFMs, Hugging Face üzerinde mevcuttur ve Cosmos-Predict1 ve Cosmos-Transfer1 için çıkarım komut dosyaları GitHub üzerinde bulunmaktadır.
Cosmos Predict önizleme NIM’ini build.nvidia.com adresinde deneyin.
Cosmos Transfer için sentetik veri üretiminde kullanılacak iş akışı kılavuzuna başvurun.
Ücretsiz NVIDIA GTC 2025 Cosmos oturumlarını keşfedin. En son platform güncellemeleri hakkında daha fazla bilgi almak için, 26 Mart Çarşamba günü saat 11:00 PDT’de yapılacak canlı yayınımıza katılın.