Robot teknolojileri ve otonom araçların gelişmesiyle birlikte, fiziksel AI olarak bilinen bir alandaki gelişmeler hız kazanmıştır. Bu teknoloji, otonom makinelerin fiziksel dünyayı algılamasını, anlamasını ve karmaşık eylemleri gerçekleştirmesini sağlamaktadır. Bu sistemlerin merkezinde, dünya temelli modeller (WFMs) yer alır. Bu yapay zeka modelleri, fiziksel durumları simüle eden fizik odaklı videolar sayesinde makinelerin çevreleriyle doğru bir şekilde etkileşim kurabilmesini mümkün kılar.
NVIDIA Cosmos, geliştiricilere fiziksel AI sistemleri için özel dünya modelleri oluşturmada ölçeklenebilir bir platform sunar. Bu platform, veri derleme, eğitim ve özelleştirme aşamalarının her biri için açık dünya temelli modeller ve araçlar sağlamaktadır.
Bu yazıda, Cosmos’un işe yarayan özelliklerinden ve fiziksel AI geliştirmesini hızlandırmadaki rolünden bahsedilecektir.
NVIDIA Cosmos ile Dünya Modeli Geliştirmek
Fiziksel AI inşa etmek oldukça zorlu bir iştir; bu süreç doğru simülasyonlar ve gerçek dünya davranışlarının anlaşılmasını gerektirir. Bu zorlukların üstesinden gelmek için anahtar bir araç olan dünya modeli, geçmiş gözlemler ve mevcut girişler temelinde çevresel durumları tahmin eder. Bu modeller, fiziksel AI geliştirenler için son derece değerlidir; çünkü onların kontrollü ortamlarda sistemleri simüle etmelerine, eğitmelerine ve geliştirmelerine olanak tanır.
Ancak etkin dünya modelleri geliştirmek, büyük miktarda veriye, hesaplama gücüne ve gerçek dünya testine ihtiyaç duyar. Bu da önemli güvenlik riskleri ve lojistik zorluklar ile maliyetler doğurabilir. Bu zorlukları aşmak için geliştiriciler, genellikle modelleri eğitmek için 3D simülasyonlardan üretilen sentetik veriler‘e yönelir. Ancak sentetik verileri oluşturmak kaynak yoğun bir süreçtir ve karmaşık veya uç durum senaryolarında gerçek dünya fiziğini tam olarak yansıtamayabilir.
Tamamı boyunca NVIDIA Cosmos, fiziksel AI sistemleri için dünya modeli geliştirmeyi hızlandıran bir platformdur. CUDA temelinde inşa edilmiştir ve en son teknoloji dünya temelli modeller, video tokenizasyonları ve AI hızlandırmalı veri işleme hatlarını bir araya getirir.
Geliştiriciler, Cosmos dünya temelli modellerini ince ayarlayarak veya tamamen yeni modeller oluşturarak dünya modeli geliştirmeyi hızlandırabilirler. Cosmos’un dünya temelli modellerine ek olarak, platform ayrıca şunları içerir:
- Veri toplama verimliliği sağlayan NVIDIA NeMo Curator
- Etkili, kompakt ve yüksek kaliteli video tokenizasyonu sağlayan Cosmos Tokenizer
- Robotik ve otonom sürüş uygulamaları için önceden eğitilmiş Cosmos dünya temelli modelleri
- NVIDIA NeMo Framework ile model eğitimi ve optimizasyonu
Özel Dünya Modelleri Geliştirmek
Cosmos dünya temelli modelleri, 9,000 trilyon token üzerinde eğitilmiş büyük jeneratif AI modelleridir. Bu modeller, otonom sürüş, robotik, sentetik ortamlar ve diğer ilgili alanlardan 20 milyon saatlik veriyle oluşturulan gerçekçi sentetik videolar üretir. Bu sayede, yüksek derecede karmaşık sistemlerin eğitimi için ölçeklenebilir bir temel sağlar; örneğin, gelişmiş eylemleri gerçekleştiren insansı robotlar simüle etmek veya uçtan uca otonom sürüş modelleri geliştirmek mümkündür.
Bu modeller, iki mimari kullanır: otoregresif ve difüzyon. Her iki yaklaşım da karmaşık zamansal bağımlılıkları ele alma konusunda etkili ve ölçeklenebilirlik sunan başlatıcı mimarisi kullanır.
Otoregresif Model
Cosmos otoregresif modeli, video üretimi için tasarlanmıştır; bir metin girişi ve geçmiş video karelerine dayanarak bir sonraki token’ı tahmin eder. Transformer decoder mimarisi ile çalışır; dünya modeli geliştirme için önemli değiştirmelerle birlikte.
- 3D RoPE (Rotary Position Embeddings): Mekansal ve zamansal boyutları ayrı ayrı kodlayarak video dizisi temsillerini hassas hale getirir.
- Çapraz dikkat katmanları: Metin girdilerini entegre eder, dünya üretiminde daha iyi kontrol sağlar.
- QK-normalizasyon: Eğitim stabilitesini artırır.
Bu modelin ön eğitimi, bir girdi kareden 17 gelecek kare tahmin etmekle başlar ve ardından 34 kareye, son olarak da 121 kareye (veya 50,000 token’a) kadar uzanır. Metin girdileri, video kareleriyle tanımlamaları bir araya getirir ve model, sağlam performans için yüksek kaliteli verilerle ince ayar yapılır. Bu yapılandırılmış yöntem, modelin değişen uzunlukta ve karmaşıklıkta videolar üretmesine olanak tanır.
Difüzyon Modelleri
Difüzyon modelleri, yüksek kaliteli ve gerçekçi çıktılar üretme becerileri nedeniyle görüntü, video ve ses üretimi için tercih edilmektedir. Bu modeller, eğitilen verileri aşamalı olarak bozar ve kullanıcı girdisine göre yeniden yapılandırır.
Difüzyon modelleri, iki aşamada çalışır:
- İleri difüzyon süreci: Eğitim verileri, birçok adımda Gauss gürültüsü eklenerek aşamalı olarak bozulur ve tamamen gürültüye dönüşür.
- Geri difüzyon süreci: Model, bu gürültüyü adım adım geri döndürerek orijinal veriyi kurtarmayı öğrenir.
Eğitildikten sonra, difüzyon modelleri, rastgele Gauss gürültüsünü örnekleyerek yeni veriler üretir ve öğrenilen gürültü giderme sürecinden geçirir. Ayrıca, Cosmos difüzyon modelleri, fiziksel AI geliştirmek için çeşitli önemli güncellemeler de alır.
- 3D patchification: Video, daha küçük parçalar halinde işlenerek mekansal-zamansal dizilim sunumlarını basitleştirir.
- Hibrid pozisyonel gömme: Mekansal ve zamansal boyutları ele alır, bu da değişken çözünürlük ve kare hızlarına sahip videoları destekler.
- Çapraz dikkat katmanları: Metin girdilerini entegre ederek video üretimi üzerinde daha iyi kontrol sağlar.
- LoRA ile adaptif katman normalizasyonu: Model boyutunu %36 azaltır, daha az kaynakla yüksek performans korur.
Çeşitli İhtiyaçlar için Model Boyutları
Geliştiriciler, performans, kalite ve dağıtım ihtiyaçlarına uygun üç model boyutundan birini seçebilirler.
- Nano: Gerçek zamanlı, düşük gecikmeli çıkarım ve kenar dağıtımı için optimize edilmiştir.
- Super: Performansa odaklanan temel modellere dayanır.
- Ultra: Maksimum kalitede ve sadakatle odaklanmış, özel modelleri damıtmak için idealdir.
Güçlü ve Zayıf Yönler
Cosmos dünya temelli modeller, robotik ve otonom araç sistemleri için eğitimde önem taşıyan düşük çözünürlükte, gerçek dünya ile uyumlu sentetik video verileri üretir. Sanatsal estetiği olmayan bu çıktılar, fiziksel dünya ile yakından örtüşmeleri nedeniyle, fiziksel AI model eğitiminde gerçekçi senaryolar ve nesne sürekliliği için idealdir.
Cosmos’un Gizlilik ve Güvenlik Sağlaması
Yapay zeka modellerinin güvenilirliği için, yanıltıcı içeriklerin azaltılması, zararlı çıktılardan kaçınılması, gizliliğin korunması ve AI standartlarına uygun olarak güvenli bir şekilde dağıtımı sağlamak için koruma sistemlerine ihtiyaç vardır. Cosmos, dünya temelli modellerinin güvenli bir şekilde kullanımını sağlamak üzere, NVIDIA’nın güvenilir AI taahhüdü doğrultusunda özelleştirilebilir, iki aşamalı bir koruma sistemi sunmaktadır.
Cosmos Koruma Sistemi, Ön Koruma ve Son Koruma aşamalarından oluşur.
Ön Koruma
Bu aşama, iki katmanlı metin girişi bazlı güvenlik önlemleri içerir:
- Anahtar Kelime Engelleme: Bir engel listesi kontrolörü, zararlı anahtar kelimeleri tespit ederek varyasyonları belirler ve İngilizce olmayan terimlerle yazım hatalarını engeller.
- Aegis Koruma: NVIDIA’nın ince ayarlı Aegis AI İçerik Güvenliği modeli, şiddet, taciz ve küfür gibi kategorilerde anlamsal olarak zararlı olan istemleri tespit edip engeller. Zararlı istemler video üretimini durdurur ve hata bildirimi gönderir.
Son Koruma
Son koruma aşaması, üretilen videoların güvenliğini sağlamak için şunları içerir:
- Video İçerik Güvenliği Sıklık Sınıflayıcısı: Her bir video karesini değerlendirerek güvenlik için çok sınıflı bir sınıflayıcı kullanır. Herhangi bir karesi güvenli olmayan videolar reddedilir.
- Yüz Bulandırma Filtre: Üretilen videolardaki tüm insan yüzleri, RetinaFace modeli kullanılarak bulanıklaştırılır. Bu, gizliliği korumak ve yaş, cinsiyet veya ırk gibi önyargıları azaltmak için gereklidir.
NVIDIA uzmanları, 10,000’den fazla istem-video çiftini not ederek sistemi geliştirmek ve uç durumları ele almak için titiz testler gerçekleştirmiştir.
Fiziksel Uyum Değerlendirmesi
Cosmos’un değerlendirmeleri, dünya temelli modellerin gerçek dünya fiziğini doğru ve etkili bir şekilde simüle etme yetilerini değerlendirmede kritik bir rol oynar. Halka açık geçerli videolara dayalı değerlendirmelerde kullandığı bulunan kriterler ile Cosmos, simüle edilmiş videoların gerçek fizik ile uyumlu olmasını sağlar.
3D Uyum
Cosmos modelleri, 500 videodan oluşan küratörlü bir alt kümede statik sahneler üzerinden 3D uyumluluk açısından test edilmiştir. Videoları tanımlayan metin istemleri oluşturulmuş ve bu sayede hareketle ilgili karmaşıklıklardan kaçınılmıştır. Karşılaştırmalar VideoLDM adlı temel bir modelle yapılmıştır.
Kullanılan Ölçütler
- Geometrik Uyum: Sampson hatası ve kamera pozlama başarı oranı gibi ölçütler kullanılarak epipolar geometri kısıtlamalarıyla değerlendirilmiştir.
- Görünüm Sentez Uyumu: PSNR, SSIM ve LPIPS gibi ölçütler kullanılarak, ara kamera pozisyonlarından sentezlenen görüntülerin kalitesi değerlendirilmektedir. Düşük Sampson hatası ve yüksek başarı oranları, daha iyi 3D uyumunu gösterir.
Daha düşük Sampson hatası ve daha yüksek başarı oranları, daha iyi 3D hizalamasını gösterirken; PSNR ve SSIM’lerin yüksek olması, LPIPS’in düşük olması ise daha iyi kalitedir.
Model | Sampson Hatayı Düşür (↓) | Pozlama Başarı Oranı (%) Artar (↑) | PSNR Artar (↑) | SSIM Artar (↑) | LPIPS Düşür (↓) |
VideoLDM | 0.841 | 4.40% | 26.23 | 0.783 | 0.135 |
Cosmos 1.0 Diffusion Text2World 7B | 0.355 | 62.60% | 33.02 | 0.939 | 0.070 |
Cosmos 1.0 Diffusion Video2World 7B | 0.473 | 68.40% | 30.66 | 0.929 | 0.085 |
Cosmos 1.0 Autoregressive 4B | 0.433 | 35.60% | 32.56 | 0.933 | 0.090 |
Cosmos 1.0 Autoregressive Video2World 5B | 0.392 | 27.00% | 32.18 | 0.931 | 0.090 |
Gerçek Videolar (referans) | 0.431 | 56.40% | 35.38 | 0.962 | 0.054 |
Sonuçlar
Cosmos dünya temelli modelleri, 3D uyumda temel modeli geride bırakarak daha yüksek geometrik hizalama ve kamera pozlama başarı oranına sahip olmuştur. Üretilen görünümler, gerçek dünya kalitesini karşılayarak dünya simülatörü olarak etkinliğini kanıtlamıştır.
Fiziksel Uyum
Fiziksel uyum, Cosmos modellerinin gerçek dünya fizikini ne kadar iyi simüle ettiğini değerlendirmek amacıyla gerçekleştirilmiştir. Bu testler, NVIDIA PhysX ve NVIDIA Isaac Sim kullanılarak sekiz kontrol senaryosunda, yerçekimi, çarpışma, tork ve atalet gibi özellikler değerlendirilmiştir.
Kullanılan Ölçütler
- Pik Seviye Gürültü Oranı (PSNR): Model çıktısı ile referans videosunun piksel değerlerinin ne kadar örtüştüğünü ölçer. Daha yüksek değerler, daha az gürültü ve daha iyi doğruluk anlamına gelir.
- Yapısal Benzerlik İndeksi (SSIM): Üretilen ve gerçek çerçeveler arasındaki yapısal, aydınlatma ve kontrast benzerliğini değerlendirir. Daha yüksek SSIM değerleri, daha büyük görsel sadakati ifade eder.
- DreamSim: Her iki videodan alınan yüksek seviyeli özellikler arasındaki benzerliği ölçer. Bu yaklaşım, üretilen içeriğin anlam tutarlılığını değerlendirir.
- Kesişim Birimi Oranı (IoU): Video içindeki tahmin edilen ve gerçek nesne bölgeleri arasındaki benzerliği hesaplayarak, nesnelerin fiziksel beklentilere uygun davranışlarını takip eder.
Daha yüksek PSNR, SSIM, DreamSim ve IoU değerleri, daha iyi fiziksel uyumu gösterir.
Model | Koşul | PSNR Artar (↑) | SSIM Artar (↑) | DreamSim Artar (↑) | Avg. IoU Artar (↑) |
Cosmos 1.0 Diffusion Video2World 7B | istek + 1 kare | 17.34 | 0.54 | 0.84 | 0.332 |
Cosmos 1.0 Diffusion Video2World 7B | istek + 9 kare | 21.06 | 0.69 | 0.86 | 0.592 |
Cosmos 1.0 Diffusion Video2World 14B | istek + 1 kare | 16.81 | 0.52 | 0.84 | 0.338 |
Cosmos 1.0 Diffusion Video2World 14B | istek + 9 kare | 20.21 | 0.64 | 0.86 | 0.598 |
Cosmos 1.0 Autoregressive 4B | 1 kare | 17.91 | 0.49 | 0.83 | 0.394 |
Cosmos 1.0 Autoregressive 4B | 9 kare | 18.13 | 0.48 | 0.86 | 0.481 |
Cosmos 1.0 Autoregressive Video2World 5B | istek + 1 kare | 17.67 | 0.48 | 0.82 | 0.376 |
Cosmos 1.0 Autoregressive Video2World 5B | istek + 9 kare | 18.29 | 0.48 | 0.86 | 0.481 |
Cosmos 1.0 Autoregressive Video2World 12B | 1 kare | 17.94 | 0.49 | 0.83 | 0.395 |
Cosmos 1.0 Autoregressive Video2World 12B | 9 kare | 18.22 | 0.49 | 0.87 | 0.487 |
Cosmos 1.0 Autoregressive Video2World 13B | istek + 1 kare | 18 | 0.49 | 0.83 | 0.397 |
Cosmos 1.0 Autoregressive Video2World 13B | istek + 9 kare | 18.26 | 0.48 | 0.87 | 0.482 |
Sonuçlar
Cosmos dünya temelli modelleri, fizik kanunlarına sıkı bir şekilde uymakta; özellikle koşullandırma verileri artırıldıkça uyum göstermektedir. Kamera koşullandırma veri kümesine göre eğitim sonrası, pozlama başarı oranında temel modellere göre iki kat artış sağlanmıştır. Ancak, nesne kaybolması (objelerin kaybolması veya beklenmedik bir şekilde ortaya çıkması) ve mantıksız davranışlar (yerçekimini ihlal etme gibi) gibi zorlukların olduğu alanlar ise geliştirmeye ihtiyaç duymaktadır.
NVIDIA Omniverse ve Cosmos ile Özelleştirme
- Video arama ve anlama: Mekansal ve zamansal kalıpları anlayarak video etiketleme ve arama işlemlerini basit hale getirir, eğitim verisi hazırlığı sürecini kolaylaştırır.
- Kontrollü 3D’den gerçek sentetik veri üretimi:NVIDIA Omniverse ile geliştiriciler 3D senaryolar oluşturabilir ve Cosmos’u kullanarak, eğitilebilir veri kümesi oluşturabilir.
- Politika modeli geliştirme ve değerlendirme: Eylem koşullandırılmış video tahminleri için ince ayar yapılmış dünya temelli modeller kullanarak, ölçeklenebilir ve tekrar edilebilir şekilde politika modelleri değerlendirilir. Bu, nesne manevrası veya engellerden kaçınma gibi görevler için gerçek dünya testlerine olan bağımlılığı azaltır.
- Eylem seçimi için öngörü: Cosmos, fiziksel AI modellerine potansiyel eylemlerin sonuçlarını değerlendirme yetenekleri kazandırır.
- Çoklu evren simülasyonu: Cosmos ve NVIDIA Omniverse ile geliştiriciler birden fazla gelecekteki sonucu simüle ederek AI modellerinin hedeflerine ulaşma stratejilerini belirlemelerine yardımcı olur. Bu, öngörücü bakım ve otonom karar verme gibi uygulamalara fayda sağlar.
Genel Modelden Özel Modelle Geçiş
Cosmos, dünya modeli eğitiminde iki aşamalı bir yaklaşım sunmaktadır.
Genel Modeller: Cosmos dünya temelli modelleri, çok çeşitli gerçek dünya fiziklerini ve ortamlarını kapsayan kapsamlı veri kümesi üzerinde eğitim alarak, genelcil olarak inşa edilmiştir. Bu açık modeller, doğal dinamiklerden robotik etkileşimlere kadar geniş bir senaryolar yelpazesini işleyebilme yeteneği sunar.
Özel Modeller: Geliştiriciler, genelci modelleri daha küçük, belirli veri kümeleri kullanarak özelleştirebilirler. Bu, otonom sürüş veya insansı robotlar gibi belirli uygulamalar için özelleşmiş modeller oluşturulmasını ve gece sahneleri, acil durum araçları gibi özelleştirilmiş senaryolar üretmelerine olanak sağlar. Bu ince ayar işlemi, sıfırdan model eğitmekten çok daha az veri ve eğitim süresi gerektirir.
Cosmos, veri işleme hatları, yüksek performanslı tokenizer ve gelişmiş eğitim çerçeveleri ile eğitim ve ince ayarı hızlandırır. Geliştiricilerin operasyonel ihtiyaçları ve uç durumlarla ilgili zorlukları ele almasına olanak tanır.
NVIDIA NeMo Curator ile Hızlandırılmış Veri İşleme
Modellerin eğitimi, özenle seçilmiş yüksek kaliteli verilere ihtiyaç duyar ve bu oldukça zaman alıcıdır. NVIDIA Cosmos, NVIDIA NeMo Curator ile güçlendirilmiş veri işleme ve derleme sürecini içerir; veri merkezi GPU’larına optimize edilmiştir.
NVIDIA NeMo Curator, robotik ve AV (otonom araçlar) geliştiricilerinin büyük veri setlerini verimli bir şekilde işlemesini sağlar. Örneğin, 20 milyon saatlik video, NVIDIA Hopper GPU’larında 40 günde veya NVIDIA Blackwell GPU’larında sadece 14 günde işlenebilir. Bu süre, optimize edilmemiş CPU hatlarında 3.4 yıl olarak tahmin edilmektedir.
Temel yararlar şunlardır:
- 89 kat daha hızlı derleme: İşleme süresini dramatik bir şekilde azaltır.
- Ölçeklenebilirlik: 100’den fazla PB veri ile uyumlu çalışır.
- Yüksek throughput: Gelişmiş filtreleme, başlıklandırma ve gömme işlemleri hız kaybetmeden kaliteyi garanti eder.
Yüksek-Fidelite Sıkıştırma ve Yeniden Yapılandırma
Veri derlendikten sonra, eğitim için tokenleştirilmesi gerekir. Tokenizasyon, karmaşık verileri yönetilebilir parçalara ayırarak modellerin bunları daha verimli bir şekilde işleyip öğrenmesini sağlar.
Cosmos tokenizasyon yöntemleri, daha hızlı sıkıştırma ve görsel yeniden yapılandırma ile birlikte kaliteyi koruyarak, süreçleri basitleştirir ve maliyet ile zorluğu azaltır. Otoregresif modeller için ayrık tokenleştirici, verileri zaman açısından 8 kat ve alan açısından 16×16 oranında sıkıştırır; 49 kareyi aynı anda işleyebilir. Difüzyon modelleri için süre açısından 8 kat ve alan olarak 8×8 sıkıştırma sağlar ve 121 kareyi yönetir.
NVIDIA NeMo ile İnce Ayar
Geliştiriciler, Cosmos dünya temelli modellerini NVIDIA NeMo Çerçevesini kullanarak ince ayar yapabilirler. NeMo Framework, mevcut bir modeli geliştirmek veya yeni bir model oluşturmak üzere GPU destekli sistemlerde eğitim sürecini hızlandırır. İster yerel veri merkezlerinde olsun, ister bulutta.
NeMo Framework, çok modlu verilerin etkili bir şekilde yüklenmesini sağlamak için:
- Terabayt boyutundaki veri kümesini sıkıştırılmış dosyalara bölerek IO yükünü azaltır.
- Veri kümesini muhafaza ederken klasörleyerek tekrarları önler ve hesaplama atıklarını azaltır.
- Veri değişiminde ağ bant genişliğini azaltmak için optimize edilmiş iletişim yöntemleri kullanır.
NVIDIA Cosmos ile Başlayın
Cosmos dünya temelli modelleri NGC ve Hugging Face‘de açıktır. Geliştiriciler ayrıca Cosmos dünya temelli modellerini NVIDIA API katalogu‘nda çalıştırabilirler. Ayrıca içeriklerinin doğruluğunu artırmak için metin istemlerini geliştiren, AI ile üretilen sahnelerin kolay bir şekilde tanınmasını sağlayan yerleşik bir işaretleme sistemi ve artırılmış gerçeklik uygulamaları için video dizilerini çözmeye özel bir model bulabilirsiniz.
Hızlandırılmış veri işleme hatları için NeMo Curator, yönetilen bir hizmet ve SDK olarak kullanılabilir. Geliştiriciler, ön kayıt için başvuruda bulunabilirler. Cosmos tokenizasyon araçları, GitHub ve Hugging Face‘de mevcuttur.
NVIDIA Cosmos ile başlamaya hazır olun.