SON DAKİKA

Nvdia

NVIDIA Riva TTS ile Çok Dilliliğe Sahip İnsan Benzeri Konuşma ve Ses Klonlamanın Geliştirilmesi

Konuşma yapay zekası (AI), dijital asistanlar ve sesli yardımcılar oluşturmak için kullanılmasının yanı sıra, etkisi bunların çok ötesine geçiyor. Metinden sese (TTS) ve otomatik konuşma tanıma (ASR) gibi temel teknolojiler, sektörler arasında yeniliği yönlendiriyor. Bu teknolojiler, gerçek zamanlı çeviri sağlıyor, etkileşimli dijital insanları güçlendiriyor ve hatta seslerini kaybetmiş bireylerin konuşmalarını yeniden kazanmalarına yardımcı oluyor. Bu yetenekler olgunlaştıkça, insanların iletişim kurma, öğrenme ve etkileşimde bulunma şekillerini köklü bir şekilde değiştiriyor.

NVIDIA Riva, gerçek zamanlı konuşma AI sistemleri oluşturmak için çok dilli mikro hizmetler sunan bir paket. Riva, TTS, ASR ve sinirsel makine çevirisi (NMT) alanlarında yüksek doğruluk sunarken, on-premise, bulut, kenar ve gömülü cihazlarda çalışabiliyor.

TTS, metinleri yüksek kaliteli, doğal sesli konuşmaya dönüştürme işlemidir. Bu, konuşma yapay zekası alanında uzun yıllardır zorlu bir görev olmuştur. Bu yazıda, NVIDIA’nın en son TTS modellerinden Riva TTS’nin üç gelişmiş modeli tanıtılıyor:

Magpie TTS Modellerinin Teknik Özellikleri

Model Mimari Kullanım Alanları Desteklenen Diller Teknik Detaylar
Magpie TTS Multilingual Streaming Encoder-Decoder Transformer – Sesli AI ajanları
– Dijital insanlar
– Çok dilli etkileşimli sesli yanıt (IVR)
– Sesli kitaplar
İngilizce, İspanyolca, Fransızca, Almanca – NVIDIA Dynamo-Triton ile gecikme: <200 ms
– Metin uyumu için tercihlerle hizalama çerçevesi ve sınıflandırıcı-sız rehberlik (CFG) ile optimize edilmiştir
Magpie TTS Zeroshot Streaming Encoder-Decoder Transformer – Canlı telefon görüşmeleri
– Oyunlardaki NPC’ler
İngilizce – NVIDIA Dynamo-Triton ile gecikme: <200 ms
– Metin uyumu için tercihlerle hizalama çerçevesi ve sınıflandırıcı-sız rehberlik (CFG)
– Ses klonlama için 5 saniyelik ses örneği kullanılır
Magpie TTS Flow Offline flow matching decoder – Stüdyo dublajı
– Podcast anlatımı
İngilizce – Model metin-konuşma uyumu ve ses karakterizasyonu
– Ses klonlama için 3 saniyelik ses örneği kullanılır
Tablo 1. Üç yeni, gelişmiş Riva TTS modeli ile konuşma sentezi

Yenilikçi Mimari ve Kullanım Alanları

Magpie TTS Multilingual ve Magpie TTS Zeroshot modelleri, akış uygulamalarını hedefleyen bir encoder-decoder transformer mimarisi‘ına dayanıyor. Modelin girişi, tokenleştirilmiş metin ve hedef konuşmacıya ait seslerden elde edilen akustik kodlar dahil ediliyor. Modeller, [örneğin çevrimiçi edilebilecek konuşma AI geri bildirimini] hedefleyen bir yapıda çalışıyor.

Yenilikçi teknolojiler kullanarak, TTS modelleri, metinle giriş ve bağlam sesine göre iki konuşma çıktısı üretiyor. Nihai sonuç, istenmeyen ses kaynağından uzaklaşarak, girişe uyumunu artırıyor ve toplam ses kalitesini yükseltiyor.

Güvenli ve Sorumlu Yapay Zeka Gelişimi

NVIDIA, Güvenilir AI girişimi çerçevesinde konuşma yapay zekasının güvenli ve sorumlu bir şekilde ilerlemesini sağlamayı hedefliyor. Yapay sesin oluşturduğu risklere karşı, Pindrop gibi önde gelen derin sahtekarlık ve ses tespiti şirketleriyle iş birliği yaparak, Riva Magpie TTS Zeroshot gibi modellere erken erişim sunuyor.

Pindrop teknolojisi, finans hizmetleri, büyük ölçekli çağrı merkezleri, perakende, enerji ve sigorta gibi bir çok sektörde güvenilir bir şekilde ses doğrulama ve derin sahtekarlık tespiti sağlamak için kullanılmaktadır. Bu iş birlikleri, kritik etkileşimlerde dolandırıcılığa ve sahtekarlığa karşı koruma sağlamak için önemli bir standart geliştirmektedir.

NVIDIA Riva ile Hızla Başlayın

NVIDIA Riva Magpie TTS modelleri, gerçek zamanlı, doğal ve konuşmacıya uyum sağlayan ses sentezinde yeni standartlar belirliyor. Çok dilli yeteneklere, sıfır ayar ses karakterizasyonuna ve gelişmiş tercih hizalamaya sahip olan Riva Magpie TTS modelleri, ifade dolu, doğru ve son derece doğal sesler üretiyor, hem konuşmacıyı hem de içeriği adapte ediyor.

NVIDIA Riva Magpie TTS modelleriyle hızla başlayabilirsiniz:

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri