Otonom araçların (AV) gelişiminde son zamanlarda uçtan uca planlama modellerine geçiş yapılıyor. Bu durum, yüksek kaliteli, fiziksel tabanlı sensor verilerine duyulan ihtiyacı artırıyor. Bu modeller, çok modlu veri setleri hakkında genel bir anlayışa sahip olmalı ve sensor veri setleri, araç yolculukları ve sürüş eylemleri arasındaki ilişkileri anlamalıdır. Bu sayede, sonradan eğitim ve doğrulama görevlerine yardımcı olabiliyor.
NVIDIA Cosmos’un dünya temel modelleri (WFM) — Tahmin Et, Taşı, Düşün — otonom araç alanına uyarlanarak geliştiricilerin, uçtan uca AV eğitimini hızlandıran dünya modelleri oluşturmalarını sağlıyor. Bu modeller, sentetik veri üretimi (SDG) için kullanılabilir ve kapalı döngü eğitimi ile araç içi çıkarımlarda önemli rol oynar.
Bu yazıda, post-eğitim için farklı yaklaşımlar üzerinde duracağız. Cosmos modellerini AV uygulamalarına uyarlamanın birçok yolu var ve burada tartıştığımız modeller, şu anda geliştiriciler tarafından erişilebilir durumda.
Cosmos’ta Sentetik Veri Üretim Boru Hatları Geliştirme
NVIDIA Araştırma, 20,000 saatlik sürüş verisi ile post-eğitim uygulayarak AV geliştirme iş akışları için bir model koleksiyonu oluşturdu. CVPR’de yayınlanan bir makalede, Cosmos modelleri kullanılarak üretilen verilerin performansı artırdığı detaylandırıldı.
AV’ye Özel Modeller
Cosmos WFM’leri, özellikle veri artırma için SDG’yi hızlandırır. Burada kullanılan örnekler Cosmos-Transfer-1-7B-Sample-AV ve Cosmos-Transfer-1-7B-Single2Multiview-Sample_AV kullanılarak yapılmaktadır. Transfer modeli, HD haritalar, LIDAR derinliği ve metin istemleri ile yönlendirilmiş çeşitli sürüş videoları üreterek farklı koşullar altında gerçekçi sahneler geliştirmektedir. Bu model, tam olarak geometrik bilgilere dayanarak kontrol sağlamak için 3D küboidleri, şerit çizgilerini, yol sınırlarını ve trafik unsurlarını kullanır. Multiview modeli, tek görünümlü videoları çok görüşlü tutarlı videolara dönüştürür. Geliştiriciler, Cosmos Transfer‘ı, kendi çok görünümlü sensor üretimlerine yönelik post-eğitim uygulayarak optimize edebilirler.
Üçüncü bir model, görüş-dil modeli (VLM) olarak adlandırılan ve Cosmos Reason gibi bir düşünme modeline yönelik post-eğitim uygulaması yapılmış bir modeldir. Bu model, düşük kaliteli veya gerçek dışı çıktıları ayıklamak için otomatik olarak örnek reddetme işlemi yaparak üretilen sentetik veri kümesinin kalitesini ve gerçekliğini artırır.
Sentetik Veri Boru Hatları
Bu modeller birlikte kullanıldığında, metin istemleri ve gerçek veri ile başlayarak yüksek kaliteli, fiziksel tabanlı çok görünümlü videolar çıktısı veren bir boru hattı oluştururlar.
Çoklu görüşlü üretim, bozulan veya engellenen kameralar gibi yaygın zorlukların üstesinden gelmeye yardımcı olur. Çoklu görünüm videoları üreterek, geliştiriciler kötü durumda olan kamerayla çekilen videoyu iyi olanla değiştirebilirler. Ayrıca, dashcam verileri kullanılabilir ve geliştiriciler, Internet videolarını kendi AV geliştirme aparatlarını taklit edecek şekilde veri haline dönüştürebilirler.
Bu boru hattından üretilen sentetik video verileri, uzun kuyruk dağılımı problemlerini hafifletebilir ve 3D şerit algılama, 3D nesne algılama ve sürüş politikası öğrenimi gibi daha sonraki görevlerde genel bir gelişim sağlar, özellikle de zorlu senaryolar olan aşırı hava koşulları ve gece sürüşü gibi durumlarda.
CVPR 2025 etkinliğine katılanlar bu projeyi daha detaylı öğrenebilirler. Embodied AI Atölyesi etkinliğinde daha fazla bilgi alınabilir.
Geliştiricilere bu verileri kendi gelişimleri için denemeleri için 40,000 tane Cosmos tarafından üretilen klip NVIDIA Fiziksel AI Veri Seti üzerinde mevcut durumda.
Cosmos’un Mevcut AV İş Akışlarına Entegre Edilmesi
Açık kaynaklı simülatörler ve AV şirketleri de Cosmos modellerini kendi verileri üzerinde post-eğitim uyguladı ve bu modelleri kendi araçlarına entegre etmeye başladılar. Bu, dünya çapında AV geliştiricileri için hızlandırılmış sentetik veri üretim boru hatları oluşturuyor.
Cosmos Transfer
GTC Paris’te duyurulan Cosmos Transfer NIM, hızlandırılmış çıkarım için Cosmos Transfer’ın kaplumbağa versiyonudur. Geliştiriciler, NIM mikro hizmetlerini kullanarak Cosmos Transfer’ı hızlı bir şekilde post-eğitim yapabilir ve uygulayabilirler, bu da SDG iş akışlarını hızlandırır.
Açık kaynak AV simülatörü CARLA, Cosmos Transfer’ı simülasyon çıktılarının genişletilmesi için entegre edecek ve böylece 150,000 geliştiriciye fiziksel tabanlı sentetik veri üretimi imkanı sunacak. Yapılan bu entegrasyon, oldukça kolay bir şekilde yüksek kaliteli video varyasyonları üretmeyi mümkün kılacak. Bu entegrasyon, erken erişim aşamasında ve topluluk geri bildirimleri doğrultusunda gelişmeye devam edecektir.
Mcity, AV geliştirme ve test için özel bir kamu-özel ortaklığıdır ve Cosmos Transfer’ı kendi 32 dönümlük fiziksel test parkurunun açık kaynak dijital ikizi ile entegre etmektedir. Mcity’i araştırma ve geliştirme amaçlı kullanan geliştiriciler, senaryoları hızlı bir şekilde ölçeklendirebilir ve yeni hava, aydınlatma ve arazi özellikleri ekleyebilirler.
Ayrıca, otonom araç yazılımı sağlayıcıları olan Foretellix ve Parallel Domain, Cosmos Transfer’ı kendi çözümlerine entegre etti. Voxel51, Cosmos Transfer ile üretilen verileri yönetmek, görselleştirmek ve geliştirmek için bir araç seti sağlıyor. Bu sayede son kullanıcılar, kendi istedikleri iş akışlarından ayrılmadan Cosmos Transfer’ın ölçek ve değişkenliğinden kolayca faydalanabilirler.
Ayrıca, Oxa isimli otonom araç yazılımı şirketi, Cosmos Transfer’i kendi Oxa Foundry geliştirme iş akışını desteklemek amacıyla entegre etti. Cosmos Transfer, gerçek çevresel ve arazi verilerine özel kullanım durumlarına uygun hızlı ve kolay bir görüntü ve görüntü sırası dönüşümü sağlar. Ayrıca, farklı hava (kar, sis, yağmur) ve aydınlatma (gece, alacakaranlık, şafak) dönüşümleri yapılmıştır.
Cosmos Predict
Yine GTC Paris’te duyurulan Cosmos Predict-2, gelecekteki dünya durumunun tahmin edilmesinde daha yüksek doğruluk ve daha az yanlış algı ile en üst düzey performansa sahip modelimizdir. Bu model, çoklu çerçeve hızlarını ve çözünürlükleri destekleyecek ve görüntü istemine göre fiziksel etkileşimleri tahmin ederek 30 saniyeye kadar video üretebilecektir.
Cosmos Predict-2 özelleştirme için tasarlanmıştır; belirli ortamlar, görevler veya kamera sistemleri üzerinde özel veriler ve NVIDIA NeMo Curator ve Cosmos Reason gibi araçlar kullanarak kolayca post-eğitim uygulanabilir. Ayrıca, Cosmos Predict-2, AV verileri ile önceden eğitim almıştır, bu da AV alanında daha hızlı bir post-eğitim süreci sağlar.
Otonom taşımacılık şirketi Plus, Cosmos Predict-1 üzerinde çokça gerçek dünya sürüş verisi ile post-eğitim uygulayarak, tır kameralarının çektiği gerçek video ile eşleşen çoklu görüşlü videolar oluşturmuştur. Bu sentetik çoklu görüşlü videolar, otonom taşımacılık sistemini sıkı bir şekilde test etmek ve doğrulamak için kenar durumlarının oluşturulmasında kullanılacaktır. Plus, Cosmos’tan gelen dünya bilgilerini de, modelin sonuca ulaşma hızını ve yeni ODD’lerde genelleme yeteneğini artırmak için damıtmaktadır.
Oxa da, aracın etrafındaki kapsamlı çok kamerali bakış açılarını oluşturmak için Cosmos Predict’den yararlanarak zamanlama açısından tutarlı video görüntüleri üretmektedir.
Otonom Araç Sektörü Uçtan Uca WFMLeri Benimsiyor
Otonom araç endüstrisi, uçtan uca temel modelleri benimsedikçe, geniş, çeşitli ve fiziksel olarak doğru sensor verilerinin önemi kritik bir hal alıyor. Gerçek dünya verileri, özellikle çeşitlilik gösteren operasyonel alanlar ve kenar durumu senaryolarında güvenli ve kapsamlı eğitim gereksinimlerini karşılamakta yetersiz kalıyor. Cosmos WFMs – Düşün, Tahmin Et, Taşı – bu boşluğu kapatarak geliştiricilerin, kontrol ve ölçeklenebilirlikte eşsiz bir şekilde yüksek kaliteli veriler üretmelerine ve özelleştirmelerine imkan tanıyor.
Bu modeller bir araya geldiğinde, otonom araç geliştirmenin hızını artırıyor. Cosmos Predict, davranış çeşitliliği getirip senaryoların genişlemesini hızlandırırken, Cosmos Transfer ise çevreler içinde fiziksel gerçekçilik sağlıyor. Açık erişim ve önde gelen simülasyon platformlarına ve araç zincirlerine sorunsuz entegrasyon ile geliştiriciler, uçtan uca otonomluğun tam potansiyelinden yararlanarak daha güvenli, daha akıllı ve daha ölçeklenebilir AV uygulaması gerçekleştirebilirler.
NVIDIA araştırma makalelerini CVPR 2025’te sunulacak olanları keşfedin ve NVIDIA GTC Paris açılış konuşmasını izleyin.
Güncel kalmak için NVIDIA haberlerine abone olun ve NVIDIA Omniverse’i Discord ve YouTube üzerinden takip edin.
- Omniverse geliştirici sayfamızı ziyaret ederek başlayın ve ihtiyaç duyduğunuz tüm belgelere erişin.
- Yeni kendinize uygun eğitim müfredatı ile birlikte AçıkUSD kaynakları koleksiyonuna erişim sağlayın.
- Gelecekteki AçıkUSD Insider canlı yayınlarına katılın ve NVIDIA Geliştirici Topluluğu ile iletişim kurun.
Kendi uygulamalarınızı ve hizmetlerinizi hızlı bir şekilde geliştirmek için geliştirici başlangıç setleri ile başlayın.