Ses Analizinde Devrim: NVIDIA’nın Streaming Sortformer Modeli
Toplantılarda, çağrılarda veya kalabalık ortamlarda, teknoloji her zaman temel bir soruyla karşı karşıya: Kim konuşuyor ve ne zaman? Yıllar boyunca, bu soruya anında yanıt vermek, özel ekipmanlar veya çevrimdışı işleme yöntemleri olmadan neredeyse imkânsızdı.
NVIDIA’nın Streaming Sortformer, bu durumu değiştiriyor. Gerçek zamanlı, çok konuşuculu senaryolar için düşük gecikme süreleriyle tasarlanmış, açık kaynak kodlu bir diyalizasyon modelidir. NVIDIA NeMo ve NVIDIA Riva ile entegre çalışarak, transkripsiyon süreçlerine, canlı sesli bot uygulamalarına veya kurumsal toplantı analizlerine kolayca entegre edilebilir.
Ana Özellikler
NVIDIA Streaming Sortformer, gerçek zamanlı birçok uygulama için sağlam ve esnek bir çözüm sunan önemli özelliklere sahiptir:
- Her bir etiketli konuşma için çerçeve düzeyinde diyalizasyondur.
- Etiketli her bir konuşma için hassas zaman damgaları sağlar.
- Düşük gecikmeyle 2-4+ konuşmacı takibi yapabilir.
- NeMo ve Riva iş akışlarına uygun, verimli GPU çıkışı sunar.
- İngilizce için optimize edilmiştir fakat Mandarin toplantı verileri üzerinde başarılı testler gerçekleştirilmiştir, bu da birçok dilde etkili bir performans sergilediğini göstermektedir.
Benchmark Sonuçları
Streaming Sortformer’ın Diyaerasyon Hata Oranı (DER) üzerine performansı, daha düşük değerlerin daha iyi olduğu anlamına geliyor. Aşağıdaki grafik, Streaming Sortformer’ın farklı gecikme ayarlarındaki başarısını göstermektedir:

Uygulama Örnekleri
Streaming Sortformer, gerçek zamanlı çok konuşmacılı senaryolar için pratik çözümler sunmaya olanak tanır:
- Toplantılar ve verimlilik: Canlı, konuşmacı etiketli transkriptler ve ertesi gün özetler.
- İletişim merkezleri: QA veya uyumluluk için müşteri/ajan akışlarını ayırma.
- Sesli botlar ve AI asistanları: Daha doğal diyalog, doğru konuşma sırası ve kimlik izleme.
- Medya ve yayıncılık: Düzenleme ve moderasyon için otomatik etiketleme.
- Kurumsal ve uyumluluk: Düzenleyici gereksinimler için denetlenebilir, konuşmacı bazlı kayıtlar.
Aşağıdaki demoyu izleyin.
Mimari ve İç Yapı
Streaming Sortformer, ses kayıtlarında konuşmacıları ortaya çıktıkları sıraya göre ayıran bir diyalizasyon modelidir. Model, ham sesi işlemek ve sıkıştırmak için önce bir ön işleme modülü kullanır, ardından konformer ve transformer blokları dizisi ile konuşma bağlamını analiz eder ve konuşmacıları sıralar.

Canlı sesle çalışabilmesi için, Streaming Sortformer sesi küçük, üst üste binen parçalara ayırarak işler. Geliş Sırası Konuşmacı Önbelleği (AOSC) adında bir bellek tamponu kullanarak daha önce tespit edilen tüm konuşmacıları izler. Bu yöntem, mevcut parçadaki konuşmacıları önceki parçadaki konuşmacılarla karşılaştırarak, bir kişinin sürekli olarak aynı etiketle tanımlanmasını sağlar. Sonuçta, AOSC tamponu gerçek zamanlı, çok konuşmacılı takip için pratik ve doğru bir çözüm sunar.

Sorumlu AI ve Gelecek Adımları
Aşağıda, dikkate alınması gereken sınırlamalar ve en iyi uygulamalar listelenmiştir:
- Konuşmalarda maksimum dört konuşmacı ile tasarlanmıştır; dörtten fazla konuşmacı halinde performansı düşer.
- İngilizce için optimize edilmiştir ancak Mandarince gibi diğer dillerde de kullanılabilir.
- Belirli bir alan veya dil için en iyi performansı elde etmek amacıyla ince ayar önerilmektedir.
- Gerçek dünya testleri, modelin örtüşmelere karşı dayanıklılık gösterdiğini doğrularken, hızlı konuşma dönüşümleri veya yoğun örtüşme durumları doğruluğu zorlayabilir.
- Gelecek aşamalar arasında:
- Daha fazla konuşmacı sayısına uzatma.
- Çeşitli dillerde ve zorlu akustik şartlarda performansı geliştirme.
- Riva ve NeMo iş akışlarına tam entegrasyon.
Sonuç
Streaming Sortformer ile geliştiriciler ve organizasyonlar, gerçek diyalogları sesli uygulamalarda işleyebilen açık, gerçek zamanlı bir diyalizör çözümüne sahip olacaklar. Bu, sırf araştırma alanında değil, tüm üretim ayarlarında geçerlidir.
Hazır mısınız? Şu adımları takip edebilirsiniz:
- Streaming Sortformer’ı indirin, kurun veya test edin.Hugging Face üzerinden destek matrisimizi inceleyin.
- NVIDIA Riva NIM’i deneyin. Ses Tanıma, Metinden Ses ve Çeviri için destek ve NVIDIA AI Enterprise ile birlikte çalışmaktadır.
- Sorular veya sorunlar için NeMo GitHub, Riva Eğitimleri ya da Riva geliştirici forumlarına başvurun.
Daha fazla teknik ayrıntı ve Streaming Sortformer üzerine arka plan bilgisi için, arXiv‘deki son araştırmamıza göz atabilirsiniz.