Özel Bilgi Getirme için Gömülü Model Doğruluğunu Artırma Yöntemleri

Özelleştirilmiş gömme modellerini ayarlamak, özellikle hukuk metinleri, tıbbi kayıtlar veya çoklu diyalogları içeren müşteri konuşmaları gibi alan odaklı verilerle çalışırken etkili bilgi alımı için kritik öneme sahiptir. Genel, açık alan modelleri, bu tür özel içeriklerin ince ayrıntılarını ve yapısını yakalama konusunda genellikle zorluk yaşar.

Coxwave Align, konversasyonel yapay zeka ürünleri için bir analiz platformu, yüksek kaliteli, alan odaklı bir veri seti oluşturmak amacıyla NVIDIA NeMo Curator kullanarak gömme modellerini ince ayar yapmaktadır. Bu özelleştirme, sorgular ve belgeler arasındaki sözel uyumu artırmış ve bilgi alım doğruluğunda hem açık hem de kapalı kaynak alternatifleri ile karşılaştırıldığında daha başarılı sonuçlar elde edilmiştir.

Özelleştirilmiş gömme modelleri, Coxwave’nin veri artırımlı üretim (RAG) hattında entegre edilmiştir. Bu sistem, yeniden sıralama aşamasına geçmeden önce daha alakalı belge önerileri sunmayı başarmıştır. Daha fazla veri, daha iyi performans anlamına gelmez fikrinin aksine, Coxwave, titiz veri süzme işlemlerinin, veri setini büyütmekten çok daha etkili olduğunu keşfetmiştir. Preprocessing sürecine ve gereksiz kalıpların kaldırılmasına harcanan zaman, eğitim süresinde 6 kat azalma sağlarken, sonuçta elde edilen modellerin genel başarımını artırmış ve benzer konuşma yapılarına aşırı uyum sağlamasını azaltmıştır.

İnce ayarlama, potansiyel gecikme ve ölçeklenebilirlik gibi ticari sıkıntılar doğurmuş olsa da, dikkatli bir veri süzme işlemi, Coxwave ekibinin daha küçük, optimize edilmiş modeller kullanmasına olanak tanımıştır. Bu durum, daha hızlı çıkarım süreleri ve yeniden sıralama gereksiniminde azalma sağlamış, böylece sistemin hem doğru hem de verimli çalışmasını mümkün kılmıştır.

Çoklu Dönüşleri Alma

Coxwave Align, konversasyonel AI uygulamaları için geliştirilmiş bir analiz motorudur. Kullanıcıların memnuniyetini veya memnuniyetsizliğini belirleyebilmek, konuşmalardaki paternleri tespit ederek yeni gelir fırsatlarına ulaşmak ve bazı kullanıcıların neden daha uzun sohbetler gerçekleştirdiğini anlamak için veri odaklı içgörüler sunar.

Geleneksel bilgi elde etme (IR) sistemlerinin statik belgeler arasında arama yapmak üzere tasarlandığı düşünüldüğünde, bu modeli dinamik konuşma geçmişleri içinde arama yapmak üzere optimize edilmiştir. Bu alan değişikliği, benzersiz zorluklar getirir: Konuşma verilerinin yapısı, anlamsallığı ve akışı, geleneksel belgelerden farklıdır ve kullanıcı sorgularının biçimi de bu farklılığı yansıtır. Bu nedenle, klasik IR teknikleri konuşma verilerine uygulandığında genellikle yetersiz kalmaktadır.

Coxwave, konuşma bağlamı, niyet ve dönüş bazındaki diyaloğu daha iyi anlamak için geri alma modellerini özelleştirerek bu zorlukların üstesinden gelmiştir. Bunun için NVIDIA NeMo Curator kullanarak bu konuşma durumlarına yönelik yüksek kaliteli bir veri seti oluşturmuşlardır.

Image showing the workflow for customizing the embedding model from Coxwave.
Şekil 1. Coxwave’ın özelleştirilmiş gömme modeli için iş akışı

Coxwave’ın yaklaşımı, sadece en alakalı yanıtı çekmekle kalmaz, aynı zamanda en uygun ve kapsamlı cevapların oluşturulmasına olanak tanır. Embedding modelleri, farklı konuşma dönüşlerinden ve segmentlerinden en alakalı K veriyi getirir. Sistem, birden fazla etkileşim noktası boyunca bilgiyi analiz edebilir ve sentezleyerek karmaşık sorgular için daha doğru yanıtlar oluşturabilir.

Örneğin, bir ürün destek chatbotuna şu şekilde bir soru sorulduğunu düşünelim:

“Geçen ayki indirimim neden fatura özetimde görünmüyor?”

Sistem, indirimle ilgili ilk tartışma yapılan konuşma dönüşünü, fatura dönemi politikalarını içeren segmenti ve uygunluğun onaylandığı konuşma dönüşünü tespit ederek verileri geri alır. Bu şekilde, sistem, çoklu etkileşim noktalarına yayılan karmaşık ve bağlama bağımlı sorulara kapsamlı yanıtlar oluşturabilir.

İnce Ayar İçin Yüksek Kaliteli Veri Süzme

Şekil 2’de de gösterildiği gibi, Coxwave’in ekibi yaklaşık 2.4 milyon konuşma veri örneği (yaklaşık 9.1 GB) ile başladı. Bu veriler açık kaynak konuşma verileri ve sentetik diyaloglardan oluşuyordu. Ekip, NeMo Curator özelliklerini kullanarak, adım adım süzme işlemleri ile verileri sistematik olarak iyileştirdi. Kesin, bulanık, kalite, ve anlamsal deduplikasyon yöntemleri ile %76’sını süzerek 605,000 yüksek kaliteli konuşma örneği elde ettiler.

Şekil 2. Konuşma verilerinin işlenmesi için veri süzme hattı

“NeMo Curator ile verileri etkin bir şekilde işleyip, gömme modelimizin özelleştirilmeye yönelik yüksek kaliteli bir veri seti oluşturduk. Bu durum, doğrulukta %12’lik bir iyileşmeyi beraberinde getirdi.”Coxwave’de AI Araştırma Takım Lideri olan Sangyeop Kim, ayrıca, veri seti boyutunun azalmasının eğitim sürelerini 6 kat kısalttığını ve bunun sonucunda modelin kapanma hızının belirgin şekilde arttığını ifade etti.

Kesin ve Bulanık Deduplikasyon

NeMo Curator deduplikasyon modülleri, büyük konuşma veri setlerini ön işleme aşamasında önemli bir rol oynamıştır. Kesin ve bulanık deduplikasyon, genellikle prompt mühendisliği veya yeniden ifade etme sürecinde değişiklik gösteren konuşmaları tanımlamada son derece etkili olmuştur. Kesin deduplikasyon modülü, her belgeyi hashleyerek her hash için yalnızca bir tanesini tutarak, birebir belgeleri etkili bir şekilde tanımlar ve çıkarır. Bulanık deduplikasyon modülü ise, MinHash imzaları hesaplayarak ve yerel duyarlı hashleme (LSH) kullanarak, yüksek Jaccard benzerliğine sahip belgeleri tespit eder.

Coxwave ekibi, kesin ve bulanık deduplikasyon kullanarak verilerin %5’ini (2.47 milyon dan 2.35 milyona) süzebilmiştir.

Anlamsal Deduplikasyon

NeMo Curator’un anlamsal deduplikasyon modülü, veri setinin kalitesini artırmak için, birebir eşleşme bulunmayan ancak anlamsal olarak benzer belgeleri tanımlayıp çıkararak çalışır. Bunun için gömme ve kümeleme teknikleri kullanılır. NeMo Curator’un RAPIDS kütüphaneleri, kesin, bulanık ve anlamsal deduplikasyonu hızlandırarak, verilerin işlenme süresini önemli ölçüde kısaltır.

Anlamsal deduplikasyon kullanarak, Coxwave ekibi filtrelenmiş verilerin %57’sini çıkarmayı başarmıştır.

Kalite Süzme

Yüksek kaliteli veriler süzmek amacıyla Coxwave ekibi NeMo Curator Kalite Sınıflandırıcısı‘nı kullanarak belgeleri “yüksek”, “orta” veya “düşük” kalite olarak sınıflandırdı. Kalite süzme işlemiyle veri,1.08 milyondan 610,000 yüksek kaliteli konuşmaya kadar indirildi.

Heuristik Süzme

Son olarak, Coxwave ekibi aşırı noktalama işaretleri, URL’ler ve tekrarlayan bilgiler içeren konuşmaları kaldırmak için heuristik filtreler kullandı ve 5,000 konuşmayı çıkararak 605,000 yüksek kaliteli konuşma elde etti.

Sentetik Veri Oluşturma

Yaklaşık 605,000 geçerli konuşmayı kullanarak, ekip her konuşma için 5 sentetik sorgu üretti (2 olumlu ve 3 zor-negatif), böylece 3 milyon sorgu-konuşma çifti elde etti. Ekip, bu çiftlerin kalitesini doğrulamak için her sorgu ile karşılık gelen konuşması arasındaki ilişkiyi inceleyerek, orijinal 3 milyon çiftten 2.5 milyon yüksek kaliteli sorgu-konuşma çiftini pastan kaliteli testlere tabii tuttu.

Bu süreç, Coxwave’ın kullandığı bir örnektir. Kurumlar, hedeflerine ve iş akışlarına en uygun NeMo Curator’un çeşitli özelliklerini seçerek kendi özelleştirme süreçlerini oluşturabilir. Unutulmaması gereken bir diğer nokta da, birçok kurumun RAG sistemlerini değerlendirmek ve özelleştirmek için yeterli veriye sahip olmayabileceğidir. Bu durumu aşmak için NeMo Curator ekibi, RAG hatlarını değerlendirmek ve ince ayar yapmak üzere sentetik veri üretim hatları sağlamıştır. Detaylı bilgi için ilgili blog yazısına göz atabilirsiniz.

Sonuçlar

Coxwave ekibi, 1,500 sorgu ve 9,100 konuşma ile test setini kullanarak, ince ayarlanan modelin sıralama kalitesini ölçmek için NDCG@10 ve ne kadar ilgili sonuç elde edildiğini ölçmek için Recall@10 metriklerini kullanarak performansını değerlendirmiştir. Sonuçlar şaşırtıcıydı; ince ayarlanmış model, karşılaştırılan tüm modelleri geçmeyi başardı.

Şekil 3, ince ayarlanmış gömme modelinin diğer modellerle karşılaştırmalı doğrudan doğruluğunu gösteren bir çubuk grafik sunmaktadır. Her iki metriğe göre, ince ayarlanmış model, bir sonraki en iyi alternatiften %15-16 oranında daha iyi performans sergilemiştir.

Şekil 3. Gömme modellerinin bilgi alımı için doğruluk sonuçlarının karşılaştırılması

Coxwave, süzme işlemi sonucunda elde edilen daha küçük veri seti ile model eğitim süresini yaklaşık 6 kata kadar kısaltmış, 32 saat olan eğitim süresi 5 saate indirilmiştir. Eğitim kaybı da büyük ölçüde azalmış ve dalgalanma aralığı ve süresi belirgin şekilde küçülerek istikrarlı bir eğitim süreci sağlanmıştır.

Şekil 4. NeMo Curator ile süzülmüş verilerle model eğitim süresi karşılaştırması

Başlamak

Kısacası, Coxwave ekibi, gömme modelinin özelleştirilmesi için yüksek kaliteli konuşma verileri süzmek amacıyla NeMo Curator’u kullanarak, bir sonraki en iyi alternatife göre %15’lik bir doğruluk artışı elde etmiştir. Ayrıca, NeMo Curator, veri boyutunu azaltarak eğitim sürelerini 6 kat azaltmıştır.

NeMo Curator’un veri işleme özellikleri hakkında daha fazla bilgi almak ve bunları veri hatlarınıza nasıl entegre edebileceğinizi öğrenmek için aşağıdaki bağlantılara göz atabilirsiniz.

  • Sentetik Veri Kullanarak RAG Hattı Performansını Değerlendirmek ve Geliştirmek
  • NeMo Curator geliştirici sayfası
  • NeMo Curator GitHub – Güncellemeleri almak, eğitimlere erişmek ve kodunuzu katkıda bulunmak için reposu yıldızlayın.

Kaynak

Nvdia Blog

Exit mobile version