“NVIDIA Streaming Sortformer ile Toplantılarda, Çağrılarda ve Ses Uygulamalarında Gerçek Zamanlı Konuşmacı Tanıma”

Ses Analizinde Devrim: NVIDIA’nın Streaming Sortformer Modeli

Toplantılarda, çağrılarda veya kalabalık ortamlarda, teknoloji her zaman temel bir soruyla karşı karşıya: Kim konuşuyor ve ne zaman? Yıllar boyunca, bu soruya anında yanıt vermek, özel ekipmanlar veya çevrimdışı işleme yöntemleri olmadan neredeyse imkânsızdı.

NVIDIA’nın Streaming Sortformer, bu durumu değiştiriyor. Gerçek zamanlı, çok konuşuculu senaryolar için düşük gecikme süreleriyle tasarlanmış, açık kaynak kodlu bir diyalizasyon modelidir. NVIDIA NeMo ve NVIDIA Riva ile entegre çalışarak, transkripsiyon süreçlerine, canlı sesli bot uygulamalarına veya kurumsal toplantı analizlerine kolayca entegre edilebilir.

Ana Özellikler

NVIDIA Streaming Sortformer, gerçek zamanlı birçok uygulama için sağlam ve esnek bir çözüm sunan önemli özelliklere sahiptir:

Her bir etiketli konuşma için çerçeve düzeyinde diyalizasyondur.
Etiketli her bir konuşma için hassas zaman damgaları sağlar.
Düşük gecikmeyle 2-4+ konuşmacı takibi yapabilir.
NeMo ve Riva iş akışlarına uygun, verimli GPU çıkışı sunar.
İngilizce için optimize edilmiştir fakat Mandarin toplantı verileri üzerinde başarılı testler gerçekleştirilmiştir, bu da birçok dilde etkili bir performans sergilediğini göstermektedir.

Benchmark Sonuçları

Streaming Sortformer’ın Diyaerasyon Hata Oranı (DER) üzerine performansı, daha düşük değerlerin daha iyi olduğu anlamına geliyor. Aşağıdaki grafik, Streaming Sortformer’ın farklı gecikme ayarlarındaki başarısını göstermektedir:

A bar graph showing streaming diarization error rates compared with the other published results. — *Şekil 1. Streaming Sortformer’ın DER değerleri(veri kaynağı)*

Uygulama Örnekleri

Streaming Sortformer, gerçek zamanlı çok konuşmacılı senaryolar için pratik çözümler sunmaya olanak tanır:

Toplantılar ve verimlilik: Canlı, konuşmacı etiketli transkriptler ve ertesi gün özetler.
İletişim merkezleri: QA veya uyumluluk için müşteri/ajan akışlarını ayırma.
Sesli botlar ve AI asistanları: Daha doğal diyalog, doğru konuşma sırası ve kimlik izleme.
Medya ve yayıncılık: Düzenleme ve moderasyon için otomatik etiketleme.
Kurumsal ve uyumluluk: Düzenleyici gereksinimler için denetlenebilir, konuşmacı bazlı kayıtlar.

Aşağıdaki demoyu izleyin.

Video 1. Çok konuşuculu bir restoran siparişi senaryosunun demosu

Mimari ve İç Yapı

Streaming Sortformer, ses kayıtlarında konuşmacıları ortaya çıktıkları sıraya göre ayıran bir diyalizasyon modelidir. Model, ham sesi işlemek ve sıkıştırmak için önce bir ön işleme modülü kullanır, ardından konformer ve transformer blokları dizisi ile konuşma bağlamını analiz eder ve konuşmacıları sıralar.

Diagram of the Sortformer model architecture. It shows the flow from multi-speaker audio input, through NEST encoder and transformer layers, to hybrid loss calculation using sort-loss and permutation-invariant loss, with ground-truth label processing for arrival time sort and lowest error permutation. — *Şekil 2.* *Sortformer* *mimarisi.*

Canlı sesle çalışabilmesi için, Streaming Sortformer sesi küçük, üst üste binen parçalara ayırarak işler. Geliş Sırası Konuşmacı Önbelleği (AOSC) adında bir bellek tamponu kullanarak daha önce tespit edilen tüm konuşmacıları izler. Bu yöntem, mevcut parçadaki konuşmacıları önceki parçadaki konuşmacılarla karşılaştırarak, bir kişinin sürekli olarak aynı etiketle tanımlanmasını sağlar. Sonuçta, AOSC tamponu gerçek zamanlı, çok konuşmacılı takip için pratik ve doğru bir çözüm sunar.

Visualization of Streaming Sortformer’s chunk-wise processing using an Arrival-Order Speaker Cache (AOSC), FIFO queue, and input buffer, illustrating real-time frame flow and speaker change handling during diarization inference. — *Şekil 3. Parçalı işleme ile AOSC ve FIFO tampon modelinin işlemi.*

Sorumlu AI ve Gelecek Adımları

Aşağıda, dikkate alınması gereken sınırlamalar ve en iyi uygulamalar listelenmiştir:

Konuşmalarda maksimum dört konuşmacı ile tasarlanmıştır; dörtten fazla konuşmacı halinde performansı düşer.
İngilizce için optimize edilmiştir ancak Mandarince gibi diğer dillerde de kullanılabilir.
Belirli bir alan veya dil için en iyi performansı elde etmek amacıyla ince ayar önerilmektedir.
Gerçek dünya testleri, modelin örtüşmelere karşı dayanıklılık gösterdiğini doğrularken, hızlı konuşma dönüşümleri veya yoğun örtüşme durumları doğruluğu zorlayabilir.
Gelecek aşamalar arasında:
- Daha fazla konuşmacı sayısına uzatma.
- Çeşitli dillerde ve zorlu akustik şartlarda performansı geliştirme.
- Riva ve NeMo iş akışlarına tam entegrasyon.

Sonuç

Streaming Sortformer ile geliştiriciler ve organizasyonlar, gerçek diyalogları sesli uygulamalarda işleyebilen açık, gerçek zamanlı bir diyalizör çözümüne sahip olacaklar. Bu, sırf araştırma alanında değil, tüm üretim ayarlarında geçerlidir.

Hazır mısınız? Şu adımları takip edebilirsiniz:

Streaming Sortformer’ı indirin, kurun veya test edin.Hugging Face üzerinden destek matrisimizi inceleyin.
NVIDIA Riva NIM’i deneyin. Ses Tanıma, Metinden Ses ve Çeviri için destek ve NVIDIA AI Enterprise ile birlikte çalışmaktadır.
Sorular veya sorunlar için NeMo GitHub, Riva Eğitimleri ya da Riva geliştirici forumlarına başvurun.

Daha fazla teknik ayrıntı ve Streaming Sortformer üzerine arka plan bilgisi için, arXiv‘deki son araştırmamıza göz atabilirsiniz.

SON DAKİKA

“NVIDIA Streaming Sortformer ile Toplantılarda, Çağrılarda ve Ses Uygulamalarında Gerçek Zamanlı Konuşmacı Tanıma”