SON DAKİKA

Nvdia

“NVIDIA RTX AI PC’lerde Yeni Küçük Dil Modelleri ile Ajanlar, Asistanlar ve Avatarlar Nasıl Dağıtılır?”

NVIDIA, dijital insanların yanıtlarını zenginleştiren çeşitli küçük dil modelleri (SLM) duyurdu. Bu yeni modeller, daha alakalı cevaplar veren geniş bağlamlı modeller ve görselleri girdi olarak kullanabilen çok modlu modeller içeriyor. Bu modeller, NVIDIA ACE adlı, ajanlar, asistanlar ve avatarlar için hayat veren dijital insan teknolojileri paketinin bir parçası olarak mevcut.

Yeni Çok Modlu SLM ile Dijital İnsanların Yanıtları Gelişiyor

Dijital insanların yanıtlarını daha etkili hale getirmek için, gerçek dünyayı anlamaları gerekiyor. NVIDIA Nemovision-4B-Instruct modeli, dijital insanların görsel imgeleri anlayarak Windows masaüstü‘nde ve gerçek dünyada yürütme yapabilmelerini sağlıyor. Bu model, en yeni NVIDIA VILA ve NVIDIA NeMo çerçevesini kullanarak damıtma, budama ve kuantizasyon işlemlerini gerçekleştiriyor. Böylece geniş bir NVIDIA RTX GPU yelpazesinde performans sergileyebiliyor ve geliştiricilerin ihtiyaç duyduğu doğruluğu koruyabiliyor.

Çok modluluk, ajans iş akışlarının temelini oluşturur ve kullanıcının az veya hiç yardım almadan akıl yürütebilen dijital insanları mümkün kılar.

Büyük Problem Çözümünde Geniş Bağlamlı Dil Modellerinin Önemi

Yeni büyük bağlamlı SLM ailesi, büyük veri girişi miktarlarını işleyebilmek için tasarlandı. Bu, modellerin daha karmaşık istemleri anlamasını sağlıyor. Mistral-NeMo-Minitron-128k-Instruct model ailesi, hız, bellek kullanımı ve doğruluk arasında optimize etmek isteyenler için 8B, 4B ve 2B parametre versiyonlarına sahiptir. Bu modeller, verilerin büyük bir kısmını tek bir geçişte işleyebilir, böylece parçalamaya ve yeniden birleştirmeye olan ihtiyacı azaltarak daha büyük doğruluk sağlar.

Mistral NeMo-Minitron-8B-128k-Instruct Mistral NeMo-12B-Instruct Llama-3.1-8B-Instruct Qwen-2.5-7B-Instruct Phi-3-Small-12-8k-Instruct Gemma-2-9B-Instruct
Özellikler Bağlam Penceresi 128K 128K 128K 128K 8K 8K
Benchmark* Talimat Takibi

IFEval

83.7 64.7 79.7 76.9 65.8 75.2
Aklı Kullanma

MUSR

12.08 8.48 8.41 8.45 16.77 9.74
Fonksiyon Çağırma

BFCL v2 Live

69.5 47.9 44.3 62.1 39.9 65.7
Çok Aşamalı İletişim

MTBench (GPT4-Turbo)

7.84 8.10 7.78 8.41 7.63 8.05
Genel Bilgi

GPQA (Ana) 0-shot

33.3 28.6 30.4 29.9 30.8 35.5
Genel Bilgi

MMLU Pro

33.36 27.97 30.68 36.52 38.96 31.95
Matematik

GSM8k 0-shot

87.6 79.8 83.9 55.5 81.7 80.1
Programlama

MBPP 0-shot

74.1 66.7 72.8 73.5 68.7 44.4
Hız* Gecikme (TTFT) 190ms 919ms 170ms 557ms DNR** 237ms
Verimlilik (Tok/s) 108.4 51.4 120.7 80.8 DNR** 84.4
Tablo 1. Mistral NeMo-Minitron-8B-128k-Instruct modelinin doğruluğu

Tablo, Mistral NeMo-Minitron-8B-128k-Instruct modelini benzer boyut aralığındaki diğer modellerle ve öğretmen Mistral NeMo 12B modelleri ile karşılaştırıyor. Sayı ne kadar yüksekse, doğruluk o kadar iyi. Kalın yazılan sayılar en iyi değeri, altı çizili olanlar ise 8B model sınıfında ikinci en iyi değeri temsil ediyor.
Not: Modeller llama.cpp ile Q4_0 kuantizasyonu ile çalıştırılmıştır. Giriş dizisi uzunluğu = 2000 token, çıktı dizisi uzunluğu = 100 token.
* Benchmark’lar FP16 hassasiyeti ile yapılmıştır. Hızlar INT4 kuantizasyonunda gerçekleştirilmiştir.
** GPT Üretilmiş Birleşik Format’ta (GGUF) çalışmaz.

NVIDIA Nemovision-4B Instruct ve daha büyük bağlamlı modeller, ön erişimle mevcuttur.

Audio2Face-3D NIM Mikroservisinde Yenilikler

Daha akıllı dijital insanlar yaratırken, etkileşimlerin inandırıcı hissettirebilmesi için gerçekçi yüz animasyonlarına ihtiyaç vardır.

NVIDIA Audio2Face 3D NIM mikroservisi, gerçek zamanlı ses kullanarak dudak senkronizasyonu ve yüz animasyonu sağlar. Artık Audio2Face-3D NIM mikroservisi, hızlandırılmış dağıtım için indirilebilir bir optimize edilmiş kapsayıcı olarak mevcut durumda. Bu mikroservis, daha iyi özelleştirme için yeni yapılandırmalar sunmaktadır ve ayrıca “James” dijital insanında kullanılan inference modelini kamuya sunmaktadır.

Dijital İnsanları RTX AI PC’lerine Dağıtmak Artık Daha Kolay

Animasyon, zeka ve ses AI modellerini verimli bir şekilde düzenlemek ve pipeline’ı optimize etmek, en yüksek doğrulukla birlikte en hızlı yanıt süresini sağlamak zor bir işlemdir.

Bu süreç, gelişmiş kullanımlar için gereken çoklu girdi ve çıktıların entegre edilmesiyle daha karmaşık hale gelir. Doğru modelleri ve çerçeveleri seçmek, orkestrasyon kodunu yazmak ve bunları spesifik donanımınıza optimize etmek, zaman alan bir görevdir.

NVIDIA, artık mevcut olan on-device iş akışları için yeni SDK eklentileri ve örnekleri duyuruyor. Bu koleksiyon, konuşma metnine dönüşüm için NVIDIA Riva Otomatik Konuşma Tanıma, bir geri getirilen artırılmış oluşturma (RAG) demosu ve Audio2Face-3D ile güçlendirilmiş bir Unreal Engine 5 örnek uygulaması içermektedir.

Bu on-device eklentiler, NVIDIA In-Game Inference SDK üzerine inşa edilmiştir ve şu anda beta aşamasındadır. In-Game Inference SDK, AI entegrasyonunu kolaylaştırmak amacıyla model ve bağımlılık indirmelerini otomatikleştirir, çıkarım kütüphaneleri ve donanım detaylarını soyutlayarak hibrit AI olanağını sağlar. Bu sayede uygulama, PC’de çalışan AI ile bulutta çalışan AI arasında kolayca geçiş yapabilir.

SDK eklentileri ve örneklerle hemen başlayabilirsiniz. Detaylı bilgi için NVIDIA Developer’a göz atabilirsiniz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri