NVIDIA, hem ses yapay zekası hem de dil modellerinde üst düzey performans, verimlilik ve erişilebilirlik sağlıyor. Bu, otomatik ses tanıma (ASR) alanında mümkün olan yeniliklerin zeminini oluşturuyor.
NVIDIA Parakeet TDT 0.6B v2, yüksek kaliteli İngilizce transkripsiyon için tasarlanmış 600 milyon parametreli bir otomatik ses tanıma (ASR) modelidir. Şu anda Hugging Face ASR liderlik tablosunda beş diğer üst sıralardaki NVIDIA Parakeet modeli ile birlikte birinci sıradadır. Ayrıca, NVIDIA NeMo Canary modelleri de Hugging Face ASR liderlik tablosunda kendine yer bulmuştur.
Bu yazı, bu ve diğer ileri düzey NVIDIA ses AI modellerinin otomatik ses tanıma (ASR) alanında doğruluk, hız ve çok yönlülük için nasıl yeni ölçütler belirlediğini inceleyecektir. Model özelliklerini, liderlik tablosu performansını ve pratik dağıtım seçeneklerini gözden geçirerek, bu son teknoloji modelleri gerçek dünya uygulamaları için nasıl kullanabileceğinizi keşfedeceğiz.
NVIDIA Ses AI Modellerinin Genel Görünümü
NVIDIA Parakeet ve Canary AI model aileleri, NVIDIA Riva‘nın bir parçasıdır. Bu, tamamen özelleştirilebilir, gerçek zamanlı konuşma AI hatları oluşturmak için GPU hızlandırmalı çok dilli ses ve çeviri mikro hizmetlerinden oluşan bir koleksiyondur.
Riva ses modelleri, genellikle araştırma prototipleri olarak başlar ve deneysel süreçten yüksek performanslı dağıtımlara kadar bir yolculuktan geçer. Araştırmadan dağıtıma geçiş süreci yapılandırılmış bir yolu izlese de, bir modelin NVIDIA NIM mikro hizmetine ilerletilmesi kararı genellikle gerçek dünya talebine ve modelin daha geniş geliştirici topluluğundaki performansına bağlıdır.
NVIDIA modelleri, genellikle araştırma prototiplerinden iyileştirilmiş dağıtımlara geçerek performans ayarlamaları yapar ve Riva aracılığıyla ölçeklenebilir, gerçek dünya uygulamaları için sorunsuz bir şekilde dağıtılır. Daha fazla bilgi edinmek için, NVIDIA’nın ürün yönetimi kıdemli direktörü Joey Conway ile yapılan son röportaja göz atabilirsiniz.
NVIDIA Parakeet v2 Model Özellikleri
Parakeet v2, sektördeki en iyi %6.05 kelime hata oranı (WER) ile eşsiz doğruluk sunuyor. Ayrıca, karşılaştırmalara göre 50 kat daha hızlı olan büyüleyici bir hızla çalışıyor ve doğru zaman damgaları ile şarkıdan sözlere transkripsiyon gibi yenilikçi yetenekler sunuyor. Bu modeller açık kaynaklıdır ve ticari kullanım için de mevcuttur.
Diğer ASR modellerinin hız, doğruluk ve özel kullanım senaryolarını dengeleme konusunda zorlandığı yerlerde, Parakeet v2 bu tüm özellikleri sunarak, geliştirilmiş performans ve esneklik talep eden geliştiriciler için en iyi tercih haline geliyor.
NVIDIA NeMo Canary Model Özellikleri
NVIDIA NeMo Canary modelleri de Hugging Face ASR liderlik tablosunun üst sıralarında yer alıyor. NVIDIA NeMo Canary 1B ve NVIDIA NeMo Canary 1B Flash, sırasıyla #4 ve #3’te yer alıyor. Bu modeller, çeşitli büyük dillerde güçlü çok dilli performans ve hızlı yanıt süreleri ile dikkat çekiyor.

NVIDIA Ses AI Modelleri Bilgi ve Kullanım Alanları
Yeni nesil NVIDIA ses AI modelleri, en önemli noktalarda performans sunacak şekilde tasarlanmıştır. Recurrent Neural Network Transducer (RNNT) çok dilli modeli, 25 dili destekleyerek global erişim sağlar. Bu şekilde, ekipler ve müşterilerle dünyanın her yerinde kolayca iletişim kurulabilir.
Arka planda gürültü olan senaryolar, örneğin hastanelerde, havaalanlarında veya kalabalık alanlarda transkripsiyon işlemleri için, Silero VAD yerleşik özelliği doğru çıktıları korur. En düşük WER değerine sahip olan Parakeet v2, hızlı ve doğru sonuçlar sunarak müzik transkripsiyonu gibi ileri düzey özelliklere de sahiptir.
Hızlı dağıtım çözümleri arayan ekipler için NVIDIA, tamamen desteklenen Riva NIM mikro hizmetlerinden oluşan bir dizi ürün sunmaktadır. Bunlar arasında:
- Parakeet RNNT 1.1B – 25 dilde doğru çok dilli transkripsiyon ve noktalama desteği
- Parakeet CTC 1.1B – Silero Ses Aktiviteleri Algılama (VAD) desteği ile gürültüye karşı dayanıklı hızlı sonuçlar
- Parakeet CTC 0.6B – 600 milyon parametreli İngilizce modeli, 35.000 saatten fazla konuşma üzerinde eğitilmiştir.
NVIDIA ses modelleri, büyük kolaylık sağlamakta ve kurumsal kullanıma hazır olarak gelmektedir. Riva modelleri NVIDIA AI Enterprise, NVIDIA NGC ve NVIDIA NIM mikro hizmetleri aracılığıyla mevcuttur. En son araştırma modellerine Hugging Face‘da ulaşılabilmektedir.
Model Adı | Yapı | Diller | Özellikler | Örnek Kullanım Alanları |
Parakeet TDT 0.6B v2 | FastConformer-TDT | İngilizce (en-US) | –Sektördeki en iyi WER –Ultra hızlı –Kelime bazında zaman damgaları –Şarkı sözleri –Noktalama |
–Medya ve eğlence –Edge ve IoT |
Parakeet RNNT 1.1B | FastConformer-RNNT | 25 dil | –Evrensel tokenizer –Noktalama bilgilendirmesi –NVIDIA NIM |
–Küresel müşteri destek –Çok dilli transkripsiyon |
Parakeet CTC 1.1B (Silero VAD, isteğe bağlı) | FastConformer-CTC | İngilizce (en-US) | –Yüksek hızlı ASR –Gürültüye dayanıklı –Silero VAD –Yüksek verim –Düşük gecikme |
–Sanal asistanlar ve kurumsal ses uygulamaları –Gürültülü ortamlar (hastaneler, havaalanları, drive-through kioskları) |
Parakeet CTC 06B | FastConformer-CTC | İngilizce (en-US), İspanyolca (es-US) | –Yüksek hızlı ASR –ASRSet ve 35K+ saatlik İngilizce (en-US) konuşma ile eğitildi –Küçük harfler –Boşluklar ve apostrof destekli –Hızlı sonuçlar |
–Sağlık ve finans gibi alanlarda düzgün transkripsiyon ihtiyaçları –Medya –Edge cihazları |
NVIDIA Ses AI Modelleriyle Başlayın
Yenilikçi gelişmeler ve yeni sürümlerle, NVIDIA Parakeet ASR modelleri ses tanımada çığır açmakta; küresel dil kapsamı, güçlü gürültü yönetimi, ve sektör lideri hız ve doğruluk sunmaktadır. Kurumsal ses çözümleri oluşturmak, çok dilli müşteri destek hizmetleri sağlamak veya gelecek nesil medya uygulamaları geliştirmek istiyorsanız, Parakeet modelleri, ürünlerinizi net ve akıllıca öne çıkarmanız için gereken araçları sunmaktadır.
Başlamak için, NVIDIA Parakeet v2’yi indir ve NVIDIA Riva ses NIM‘i deneyimleyin. Teknik detaylar, dağıtım kılavuzları ve daha fazlası için NGC Kataloğu’nu ziyaret edebilirsiniz.