NVIDIA NeMo ile En İyi Çok Modlu Üretken Yapay Zeka Modeli Geliştirme Süreci

Üretken Yapay Zeka, metin tabanlı modellerden çok modlu yeteneklere hızla evrildi. Bu modeller, görüntü başlığı oluşturma ve görsel soru yanıtlama gibi görevleri yerine getirerek, yapay zekanın daha insan benzeri bir hale gelmesini sağlıyor. Topluluk şu anda metin ve görsellerin ötesine geçerek video alanına yöneliyor ve bu, çeşitli endüstrilerde yeni olasılıklar açıyor.

Video AI Modellerinin Endüstrilere Etkisi

Video AI modelleri, robotik, otomotiv ve perakende gibi endüstrileri devrim niteliğinde değiştirme potansiyeline sahip. Robotik alanında, karmaşık ve sürekli değişen ortamlarda otonom navigasyonu geliştirdikleri için, manüfüktür ve depo yönetimi gibi sektörlerde kritik öneme sahiptirler. Otomotiv endüstrisinde ise, video AI, otonom sürüşü destekleyerek araç algılama, güvenlik ve öngörücü bakım sağlayarak verimlilik artırıyor.

Görsel Veri İşleme ve Eğitim Süreçleri

Görsel ve video temel modellerin oluşturulması için geliştiricilerin, büyük miktarda eğitim verisini derleyip ön işleme tabi tutmaları, yüksek kaliteli verileri yüksek sadakatle tokenize etmeleri, önceden eğitimli modelleri verimli bir şekilde ve ölçekli olarak eğitmeleri veya özelleştirmeleri ve ardından yüksek kaliteli görüntüler ve videolar üretmeleri gerekmektedir.

NVIDIA NeMo ile Çok Modlu Üretken Yapay Zeka

NVIDIA NeMo, üretken AI modellerini geliştirmek, özelleştirmek ve dağıtmak için uçtan uca bir platformdur. NVIDIA, NeMo’yu çok modlu modellerin geliştirilmesi için uçtan uca bir hat olarak genişletti. NeMo, yüksek kaliteli görsel verileri kolayca derlemeyi, eğitim ve özelleştirmeyi hızlandırmayı sağlar.

NeMo Curator adlı araç, veri derleme sürecini sadeleştirerek, çok modlu üretken AI modelleri oluşturmayı daha kolay ve hızlı hale getirir. Bu out-of-the-box deneyimi, toplam sahip olma maliyetini (TCO) azaltır ve pazara hızla ulaşmayı sağlar.

Veri İşleme Performansını Artırma

Görseller üzerinde çalışırken, petabayt ölçeğinde veri işlemesine kolayca ulaşılabilir. NeMo Curator, her veri derleme aşamasında birden fazla GPU’da yük dengelemesi yapabilen bir organizasyon hattı sunar. Bu sayede, video işleme süresini 7 kat azaltarak, büyük veri kümesi işlemlerinin sorunsuz bir şekilde gerçekleştirilmesini sağlar.

NeMo Curator, yüksek verimlilikte filtreleme, başlık oluşturma ve gömme aşamalarını optimize eden referans video derleme modelleri sunarak veri seti kalitesini artırır. Örneğin, NeMo Curator, optimize edilmiş bir başlık oluşturma modeli kullanarak, optimize edilmemiş çıkarım modeli uygulamalarıyla kıyaslandığında büyük bir performans iyileştirmesi sağlar.

NVIDIA Cosmos Tokenizer’lar

Tokenizer’lar, gereksiz ve örtük görsel verileri kompakt ve anlamsal token’lara çevirerek, büyük ölçekli üretken modellerin verimli bir şekilde eğitimini sağlar ve sınırlı hesaplama kaynaklarında çıkarım işlemini demokratikleştirir.

Günümüzdeki açık video ve görsel tokenizer’lar genellikle zayıf veri temsilleri üretir. Bu da kayıplı yeniden yapılandırmalara, bozulmuş görüntülere ve zaman olarak kararsız videolara neden olur; bu durum, bu tokenizer’lar üzerine inşa edilen üretken modellerin yeteneklerini kısıtlar. Ayrıca, verimsiz tokenizasyon süreçleri, yavaş kodlama ve çözme işlemlerine yol açarak eğitim ve çıkarım sürelerini uzatır, bu da geliştirici verimliliği ile kullanıcı deneyimini olumsuz etkiler.

NVIDIA Cosmos tokenizers daha önce hiç olmadığı kadar büyük sıkıştırma oranları ve keskin yeniden yapılandırma kalitesi sunan açık modellerdir. Bu token’lar, görsel veri yönetimini etkin bir şekilde sağlamak amacıyla standartlaştırılmış bir model grubuyla birlikte gelir.

Cosmos Tokenizer Mimarisi

Bir Cosmos tokenizer, yüksek verimlilik ve etkili öğrenme için tasarlanmış karmaşık bir encoder-decoder yapısı kullanır. Temel olarak, 3D nedensellikli konvülsiyon blokları kullanarak zamansal bilgiyi işleyen özel katmanlar içerir ve geçmiş çerçeveleri araştırırken nedensel zamansal dikkat kullanarak verilerdeki uzun mesafeli bağımlılıkları kaplar.

Bu nedensel yapı, modelin tokenizasyon yaparken yalnızca geçmiş ve mevcut çerçeveleri kullanmasını ve gelecek çerçeveleri dışarıda bırakmasını garanti eder. Bu, fiziksel AI veya çok modlu LLM’lerdeki birçok gerçek dünya sisteminin nedensel doğası ile hizalanması açısından önemlidir.

Tokenizasyon Verimliliği ve Performansı

Giriş verisi, 3D wavelet’ler kullanılarak azaltılır; bu teknik, piksel bilgisini daha verimli şekilde temsil eder. Veri işlendiğinde, orijinal girişi yeniden yapılandırmak için ters wavelet dönüşümü gerçekleştirilir. Bu yöntem, öğrenim verimliliğini artırarak, tokenizer encoder-decoder öğrenen modüllerin anlamlı özelliklere odaklanmasını sağlar.

Tahmin sırasında, Cosmos tokenizer’lar, lider açık ağırlık tokenizer’larla karşılaştırıldığında %12 daha hızlı yeniden yapılandırma sunarak, modelin çalıştırma maliyetini önemli ölçüde azaltır.

Cosmos tokenizers, yüksek dereceli sıkıştırma ile yeniden üretim yapabilmenin yanı sıra, inovatif bir sinir ağı eğitim tekniği ve mimarisi sayesinde yüksek kaliteli görüntüler ve videolar oluşturabilir.

Devamında, NVIDIA NeMo platformunun genişletilmesi ile NeMo Curator aracılığıyla ölçekli veri işleme ve Cosmos tokenizer kullanarak yüksek kaliteli tokenizasyon ve görsel yeniden yapılandırma, güncel üretken AI modellerini oluşturmanıza olanak tanır. Hemen bekleme listesine katılın ve NeMo Curator’ın ne zaman kullanılabilir olacağını öğrenin. Tokenizer şu anda NVIDIA/cosmos-tokenizer GitHub repo’sunda ve Hugging Face‘de kullanımınıza sunulmuştur.

Kaynak

Nvdia Blog

Exit mobile version