“NVIDIA RTX AI PC’lerde Yeni Küçük Dil Modelleri ile Ajanlar, Asistanlar ve Avatarlar Nasıl Dağıtılır?”

NVIDIA, dijital insanların yanıtlarını zenginleştiren çeşitli küçük dil modelleri (SLM) duyurdu. Bu yeni modeller, daha alakalı cevaplar veren geniş bağlamlı modeller ve görselleri girdi olarak kullanabilen çok modlu modeller içeriyor. Bu modeller, NVIDIA ACE adlı, ajanlar, asistanlar ve avatarlar için hayat veren dijital insan teknolojileri paketinin bir parçası olarak mevcut.

Yeni Çok Modlu SLM ile Dijital İnsanların Yanıtları Gelişiyor

Dijital insanların yanıtlarını daha etkili hale getirmek için, gerçek dünyayı anlamaları gerekiyor. NVIDIA Nemovision-4B-Instruct modeli, dijital insanların görsel imgeleri anlayarak Windows masaüstü‘nde ve gerçek dünyada yürütme yapabilmelerini sağlıyor. Bu model, en yeni NVIDIA VILA ve NVIDIA NeMo çerçevesini kullanarak damıtma, budama ve kuantizasyon işlemlerini gerçekleştiriyor. Böylece geniş bir NVIDIA RTX GPU yelpazesinde performans sergileyebiliyor ve geliştiricilerin ihtiyaç duyduğu doğruluğu koruyabiliyor.

Çok modluluk, ajans iş akışlarının temelini oluşturur ve kullanıcının az veya hiç yardım almadan akıl yürütebilen dijital insanları mümkün kılar.

Büyük Problem Çözümünde Geniş Bağlamlı Dil Modellerinin Önemi

Yeni büyük bağlamlı SLM ailesi, büyük veri girişi miktarlarını işleyebilmek için tasarlandı. Bu, modellerin daha karmaşık istemleri anlamasını sağlıyor. Mistral-NeMo-Minitron-128k-Instruct model ailesi, hız, bellek kullanımı ve doğruluk arasında optimize etmek isteyenler için 8B, 4B ve 2B parametre versiyonlarına sahiptir. Bu modeller, verilerin büyük bir kısmını tek bir geçişte işleyebilir, böylece parçalamaya ve yeniden birleştirmeye olan ihtiyacı azaltarak daha büyük doğruluk sağlar.

Mistral NeMo-Minitron-8B-128k-Instruct	Mistral NeMo-12B-Instruct	Llama-3.1-8B-Instruct	Qwen-2.5-7B-Instruct	Phi-3-Small-12-8k-Instruct	Gemma-2-9B-Instruct
Özellikler	Bağlam Penceresi	128K	128K	128K	128K	8K	8K
Benchmark*	Talimat Takibi IFEval	83.7	64.7	79.7	76.9	65.8	75.2
	Aklı Kullanma MUSR	12.08	8.48	8.41	8.45	16.77	9.74
	Fonksiyon Çağırma BFCL v2 Live	69.5	47.9	44.3	62.1	39.9	65.7
	Çok Aşamalı İletişim MTBench (GPT4-Turbo)	7.84	8.10	7.78	8.41	7.63	8.05
	Genel Bilgi GPQA (Ana) 0-shot	33.3	28.6	30.4	29.9	30.8	35.5
	Genel Bilgi MMLU Pro	33.36	27.97	30.68	36.52	38.96	31.95
	Matematik GSM8k 0-shot	87.6	79.8	83.9	55.5	81.7	80.1
	Programlama MBPP 0-shot	74.1	66.7	72.8	73.5	68.7	44.4
Hız*	Gecikme (TTFT)	190ms	919ms	170ms	557ms	DNR**	237ms
Hız*	Verimlilik (Tok/s)	108.4	51.4	120.7	80.8	DNR**	84.4

Tablo 1. Mistral NeMo-Minitron-8B-128k-Instruct modelinin doğruluğu

Tablo, Mistral NeMo-Minitron-8B-128k-Instruct modelini benzer boyut aralığındaki diğer modellerle ve öğretmen Mistral NeMo 12B modelleri ile karşılaştırıyor. Sayı ne kadar yüksekse, doğruluk o kadar iyi. Kalın yazılan sayılar en iyi değeri, altı çizili olanlar ise 8B model sınıfında ikinci en iyi değeri temsil ediyor.
Not: Modeller llama.cpp ile Q4_0 kuantizasyonu ile çalıştırılmıştır. Giriş dizisi uzunluğu = 2000 token, çıktı dizisi uzunluğu = 100 token.
* Benchmark’lar FP16 hassasiyeti ile yapılmıştır. Hızlar INT4 kuantizasyonunda gerçekleştirilmiştir.
** GPT Üretilmiş Birleşik Format’ta (GGUF) çalışmaz.

NVIDIA Nemovision-4B Instruct ve daha büyük bağlamlı modeller, ön erişimle mevcuttur.

Audio2Face-3D NIM Mikroservisinde Yenilikler

Daha akıllı dijital insanlar yaratırken, etkileşimlerin inandırıcı hissettirebilmesi için gerçekçi yüz animasyonlarına ihtiyaç vardır.

NVIDIA Audio2Face 3D NIM mikroservisi, gerçek zamanlı ses kullanarak dudak senkronizasyonu ve yüz animasyonu sağlar. Artık Audio2Face-3D NIM mikroservisi, hızlandırılmış dağıtım için indirilebilir bir optimize edilmiş kapsayıcı olarak mevcut durumda. Bu mikroservis, daha iyi özelleştirme için yeni yapılandırmalar sunmaktadır ve ayrıca “James” dijital insanında kullanılan inference modelini kamuya sunmaktadır.

Dijital İnsanları RTX AI PC’lerine Dağıtmak Artık Daha Kolay

Animasyon, zeka ve ses AI modellerini verimli bir şekilde düzenlemek ve pipeline’ı optimize etmek, en yüksek doğrulukla birlikte en hızlı yanıt süresini sağlamak zor bir işlemdir.

Bu süreç, gelişmiş kullanımlar için gereken çoklu girdi ve çıktıların entegre edilmesiyle daha karmaşık hale gelir. Doğru modelleri ve çerçeveleri seçmek, orkestrasyon kodunu yazmak ve bunları spesifik donanımınıza optimize etmek, zaman alan bir görevdir.

NVIDIA, artık mevcut olan on-device iş akışları için yeni SDK eklentileri ve örnekleri duyuruyor. Bu koleksiyon, konuşma metnine dönüşüm için NVIDIA Riva Otomatik Konuşma Tanıma, bir geri getirilen artırılmış oluşturma (RAG) demosu ve Audio2Face-3D ile güçlendirilmiş bir Unreal Engine 5 örnek uygulaması içermektedir.

Bu on-device eklentiler, NVIDIA In-Game Inference SDK üzerine inşa edilmiştir ve şu anda beta aşamasındadır. In-Game Inference SDK, AI entegrasyonunu kolaylaştırmak amacıyla model ve bağımlılık indirmelerini otomatikleştirir, çıkarım kütüphaneleri ve donanım detaylarını soyutlayarak hibrit AI olanağını sağlar. Bu sayede uygulama, PC’de çalışan AI ile bulutta çalışan AI arasında kolayca geçiş yapabilir.

SDK eklentileri ve örneklerle hemen başlayabilirsiniz. Detaylı bilgi için NVIDIA Developer’a göz atabilirsiniz.