Büyük Dil Modelleri (LLM) giderek daha fazla ilgi çekiyor ve bu durum, veri geri kazanımlı üretim (RAG) sistemlerini de önemli hale getiriyor. RAG sistemleri, LLM’lerin üretim gücünü dış veri kaynakları ve geri kazanım mekanizmalarıyla birleştirerek, modellerin eğitim sırasında erişemedikleri özel alan bilgilerine ulaşmalarını sağlıyor.
RAG sistemlerinin performansı, temel metin gömme (embedding) modellerinin kalitesine bağlıdır. Zayıf gömme modelleri, düşük kaliteli geri kazanım sonuçları doğurur ve bu da RAG sisteminin genel performansını olumsuz etkiler. Özellikle, dışarıdan alınan modellerin yeterli doğruluğu sunamadığı kurumsal veri ile çalışıldığında bu durum daha da belirginleşir.
RAG sisteminin özel verinizle etkili bir şekilde çalışabilmesi için, önceden eğitilmiş gömme modellerinin veri kümeniz üzerinde nasıl performans gösterdiğini değerlendirmeniz gerekir. Bu değerlendirme, son kullanıcıların gönderdiği sorgulara benzer türden etiketlenmiş verilere ihtiyaç duyar. Örneğin, aşağıda bir örnek verilmiştir:
Soru: Kurumsal VPN şifremi nasıl sıfırlarım?
Geçmiş: VPN şifrenizi sıfırlamak için IT yardım portalına gidin, 'Şifreyi Sıfırla' seçeneğini tıklayın ve ekrandaki talimatları izleyin.
Cevap: IT yardım portalına gidin ve 'Şifreyi Sıfırla' seçeneğini tıklayın.
Pek çok durumda, hazır gömme modelleri alan özel veriler üzerinde optimal sonuçlar vermez. Bu durum, bu modellerin kurumsal metinlerle aynı dağılıma sahip etiketlenmiş veriler kullanılarak özelleştirilmesi gereksinimini doğurur.
Gömme Modellerini Özelleştirme ve Değerlendirme
Gömme modelleri, RAG sistemlerinde hem doküman koleksiyonunu hem de kullanıcı sorgularını yoğun sayısal vektörlere dönüştürerek önemli bir rol oynar. Bu gömme vektörleri, veritabanında depolanır ve RAG sistemi, belirli bir sorguya en uygun belgeleri etkili bir şekilde geri getirir.
Önceden eğitilmiş gömme modelleri genel metinler için iyi çalışabilirken, alan özel verilerin nüanslarını yakalama konusunda genellikle başarısız olur. Bu boşluk, güvenilir arama sonuçlarının elde edilememesine, bağlantıların kaçırılmasına ve kötü RAG performansına yol açar.
Bu sorunu aşmak için, gömme modellerinin alan özel verilerle değerlendirilmesi ve özelleştirilmesi gerekir. Bu özelleştirme, modelin iç ağırlıklarının ayarlanarak, hedef kurumsal uygulama ile ilgili bağlamsal anlamları daha iyi anlamasını sağlar.
Örneğin, “pitch” kelimesi farklı bağlamlarda şu şekilde kullanılabilir:
- Spor: “Beyzbol atışı mükemmeldi.” Burada “pitch” bir atışı ifade eder.
- İş Dünyası: “Girişim, yatırımcılara harika bir sunum yaptı.” Bu durumda “pitch” bir sunum anlamına gelir.
Eğer bir gömme modeli çoğunlukla spor verileri üzerinde eğitilmişse, “pitch” kelimesinin vektörü spor bağlamına yönelik eğilim gösterir. Bu, iş sorguları için kullanıldığında hatalı geri dönüşlere neden olabilir. İşe özel metinler üzerinde ince ayar yaparak modelin “pitch” kelimesinin iş anlamını temsil edecek şekilde ayarlanması, o alandaki belge yeniden elde ediminde doğruluğu artırır.
Veri Seti Oluşturmanın Zorlukları
Kamuya açık olarak erişilebilen veri setleri genellikle kurumsal özel verilere uygulanabilirlik açısından yetersiz kalır. Bu veri setleri genellikle kamuya açık kaynaklardan derlenir ve dil, bağlam ve yapı açısından kurumsal içeriğe denk gelmez.
Sonuç olarak, kamu veri setlerini bir RAG sisteminin değerlendirilmesi veya özelleştirilmesi için kullanmak, hatalı performans değerlendirmelerine ve optimal olmayan model ince ayarlarına yol açabilir.
Özel insan-etiketli veri setleri oluşturmak hem pahalı hem de zaman alıcıdır. Bu süreç, domain uzmanlarının belirli bir terminoloji ve bağlamı yakalamalarına yardımcı olmak için büyük miktarda veriyi etiketlemesini gerektirir. Ayrıca, bu yaklaşım ölçeklenmesi güç bir yöntemdir, özellikle de kurumsal ihtiyaçlar zamanla evrildiğinde.
NVIDIA NeMo Curator ile Sentetik Veri Üretimi
NVIDIA NeMo Curator, metin, resim ve video verilerini büyük ölçekte işleyerek, üretken AI modelinin doğruluğunu artırır. Ayrıca, gömme modellerini özelleştirmek ve değerlendirmek için sentetik veri üretimi için önceden oluşturulmuş işlem hatları sunar.
RAG değerlendirme verileri üretmeye yönelik SDG işlem hattı, gömme modelinin performansını ölçen yüksek kaliteli soru-cevap (QA) çiftleri üretmek üzere tasarlanmıştır. Bu işlem hattı, üretilen verilerin bağlama uygun, zorlu ve kaynak materyalle temellendirilmiş olmasını sağlamak için üç ana bileşen içerir:
- QA çiftlerini üreten LLM
- Soru zorluğu için bir değerlendirme modeli
- Cevaplama filtrelemesi
NVIDIA NeMo Retriever, NVIDIA NeMo platformunun önemli bir bileşeni olarak, RAG uygulamalarını hızlandırır ve daha hassas bir multimodal veri çıkarımı ve geri kazanım sağlar.
QA Çiftlerini Üreten LLM
Bu bileşen, tohum belgelerinden QA çiftleri üretmek için herhangi bir NVIDIA NIM LLM kullanır. LLM’yi daha bağlam odaklı ve alakalı sorular oluşturması için yönlendiren optimize edilmiş sistem istemleri sağlanmıştır.
Örnek Girdi:
Tohum Belgesi:
"Kurumsal olarak bulut tabanlı siber güvenlik çözümleri sunuyoruz."
Örnek Çıktı:
Soru: "Kurumsal ne tür çözümler sunuyor?"
Cevap: "Bulut tabanlı siber güvenlik çözümleri."
Sistem istemleri, bu görev için özel olarak tasarlandığı için, LLM, tohum verilerin bağlamıyla uyumlu sorular üreterek daha kaliteli sonuçlar elde eder.
Soru Zorluğu Değerlendirmesi
Üretilen soruların zorluk aralığını kapsamasını sağlamak için bu bileşen, her bir sorunun karmaşıklığını değerlendirmek ve sıralamak için bir gömme modeli kullanır.
Gömme modeli, üretilen soruları bağlam belgeleri ile olan kosinüs benzerliği temelinde filtrelemek üzere bir hakem olarak kullanılır. Eşik değerleri, manuel olarak etiketlenmiş veri setleri ile kalibre edilerek belirlenir ve bu eşikler belirli ihtiyaçlara göre özelleştirilebilir.
Veri setinin zorluk dağılımı, bu eşiklerin değiştirilmesiyle kontrol edilebilir. Daha düşük eşikler, daha zor soruların daha yüksek yüzdesini doğururken, daha zor değerlendirme veri setleri oluşturulmasına yardımcı olur.
Cevaplama Filtrelemesi
Son bileşen, her üretilen sorunun tohum belgede doğrudan temellendirildiğinden emin olmak için bir filtre olarak görev yapar. Bu adım, veri setine alakasız veya hayali soruların dahil edilmesini engelleyerek, değerlendirme verisinin kalitesini ve güvenilirliğini artırır.
NeMo Curator, gömme modellerini özelleştirmek için bir özelleştirme verisi üretim hattı sağlar. Değerlendirme hattındaki bileşenlerin yanı sıra, zorlu negatifleri bulma modülünü de ekler.
Hard Negatiflerin Anlaşılması
Zor negatifler, gömme modellerinin kontrastif öğrenme performansını artırmada kritik bir rol oynar. Bu örnekler, pozitif örneklerden ayırt edilmesi zor olan, ancak sorgunun cevabını içermeyen bağlamları ifade eder.
Zor negatiflerin katılımıyla, modeller daha ayrıştırıcı özellikler öğrenmeye zorlanır ve benzer ama farklı verileri ayırt etme yetenekleri gelişir. Bu yöntem, modelin karar sınırlarını daha sağlam hale getirerek daha iyi genelleştirilebilir temsil edenler üretir.
Özelleştirme sürecinde amaç, negatif belgelerin gömme mesafesinin artırılması ve pozitif belgelerle soru arasındaki mesafenin azaltılmasıdır. Bu süreç, modelin uygun ve alakasız bilgiler arasındaki ayrımı daha iyi öğrenmesine yardımcı olur.
Pek çok gömme modeli için, bir soruyla alakasız belgeler arasındaki mesafe zaten yüksektir. Bu nedenle, rastgele negatif belgelerin kullanılması modelin öğrenimini önemli ölçüde etkilemez.
Bu nedenle, modeller zor negatifler ile eğitilmelidir. Bu, belgelerin, daha yüksek kosinüs benzerliği ile sorguya yakın olma durumunda ayırt edici bir biçimde zor olduğu anlamına gelir.
Zor negatif belgeleri kullanmanın birkaç yöntemi vardır:
- Top-K Seçimi: Sistem, soru ile en yüksek kosinüs benzerliğine sahip olan K negatif belgeleri belirler. Böylece model, benzer vektör alanında ilgili ve alakasız belgeleri daha iyi ayırt etmek için eğitilir.
- Eşik Bazlı Seçim: Alternatif bir yaklaşım, negatifler ve soru arasındaki kosinüs benzerliği için minimum ve maksimum eşikler belirlemek ve yalnızca bu eşikler içindeki en iyi K negatif belgeleri seçmektir.
- Pozitif Bilgili Madencilik: Bu yöntemde, pozitif alaka puanı bir referans olarak kullanılarak sahte negatiflerin daha etkili bir şekilde ortadan kaldırılması amaçlanır. Maksimum negatif benzerlik eşiği, pozitif puanın belirli bir yüzdesi olarak tanımlanır. Bu yöntem çok etkili olup, eşiğin pozitif puanın %95’ine ayarlandığında iyi sonuçlar verir.
Zor negatiflerle, gömme modellerini özelleştirmek ve RAG uygulamalarının doğruluğunu artırmak için yüksek kaliteli veriler üretebilirsiniz.
Özet
Bu yazıda, NeMo Curator’ın SDG işlem hatlarının yüksek kaliteli veri setleri oluşturmayı nasıl kolaylaştırdığını, metin gömme modellerinin hassas değerlendirilmesini ve özelleştirilmesini sağladığını ele aldık.
Bu geliştirilmiş veri setleri sayesinde, RAG performansını etkili bir şekilde değerlendirebilir ve ince ayar yapabilir, geri kazanım sistemlerinizin ne kadar iyi çalıştığını anlayabilir ve doğruluğu artırmanın yollarını belirleyebilirsiniz.
Daha fazla bilgi almak için aşağıdaki kaynaklara göz atabilirsiniz:
- NeMo Retriever Sentetik Veri Üretimi eğitimi
- Kurumsal Veri Platformunu Üretken AI ve RAG ile Dönüştürün [S72205] GTC oturumu
NeMo Retriever gömme mikro hizmetleri ile multimodal belge geri alımını daha da optimize edebilir, RAG uygulamalarının genel doğruluğunu ölçeklenerek önemli ölçüde azaltılmış maliyetlerle artırabilirsiniz.