“Reranking Mikroservisi Kullanarak Bilgi Elde Etmenin Doğruluğunu ve Maliyetlerini Nasıl Artırabilirsiniz?”

Yüksek performanslı bilgi edinme gerektiren uygulamalar, arama motorları, bilgi yönetim sistemleri, AI ajanları ve AI asistanları gibi birçok alanda yer almaktadır. Bu sistemler, kesin içgörüler sunmak, kullanıcı deneyimlerini geliştirmek ve ölçeklendirme yeteneğini korumak için doğru ve hesaplama açısından verimli geri alma süreçlerine ihtiyaç duyar. Geri alma ile zenginleştirme (RAG), sonuçları zenginleştirmek için kullanılır; ancak etkinliği, temel geri alma mekanizmalarının doğruluğuna bağlıdır.

RAG tabanlı sistemlerin işletim maliyetleri, iki ana faktör tarafından yönlendirilmektedir: hesaplama kaynakları ve altoptimal geri alma doğruluğundan kaynaklanan hata maliyetleri. Bu zorluklarla başa çıkmak için geri alma süreçlerinin optimize edilmesi gerekmektedir; bu, performanstan ödün vermeden sağlanmalıdır. Bir yeniden sıralama (reranking) modeli, geri alma doğruluğunu artırarak genel harcamaları azaltmaya yardımcı olabilir. Fakat, yeniden sıralama modellerinin potansiyeline rağmen, bu modeller geçmişte karmaşıklık endişeleri ve bilgi geri alma iş akışlarındaki marjinal kazançlar nedeniyle yeterince kullanılmamıştır.

Bu yazıda, NVIDIA’nın NeMo Retriever yeniden sıralama modelindeki önemli performans iyileştirmelerini ortaya koyarak, günümüz iş akışlarında hesaplama ilişki puanlarının rolünü yeniden tanımladığını göstereceğiz. Detaylı kıyaslamalarla, maliyet-performans dengelerini vurgulayacak ve hafif uygulamalardan kurumsal düzeyde dağıtımlara kadar geniş bir yelpazeyi karşılayan esnek yapılandırmaları sergileyeceğiz.

Yeniden Sıralama Modeli Nedir?

Yeniden sıralama modeli, genellikle bir reranker veya çapraz kodlayıcı (cross-encoder) olarak adlandırılan, iki metin parçası arasında bir ilişki puanı hesaplamak üzere tasarlanmış bir modeldir. RAG bağlamında, bir yeniden sıralama modeli, bir pasajın belirli bir sorguya olan alaka düzeyini değerlendirir. Sadece her bir pasaj için bağımsız anlamsal temsiller üreten ve alaka düzeyini belirlemek için sezgisel benzerlik metriklerine (örneğin, kosinüs benzerliği) dayanan yaklaşımların aksine, yeniden sıralama modeli, sorgu-pasaj çiftini aynı model içerisinde karşılaştırır. Bu, her bir pasaj için bir anlamsal temsil oluşturur ve ardından alaka düzeyini ölçmek için bir sezgisel ölçüt kullanır.

Yeniden sıralama modelleri, sorgu ve pasaj arasındaki örüntüleri, bağlamı ve paylaşılan bilgileri aynı anda analiz ederek daha detaylı ve doğru bir alaka değerlendirmesi sağlar. Bu nedenle, çapraz kodlayıcılar, bir embedding model ile sezgisel bir puan kullanmanın ötesine geçerek alaka düzeyini daha doğru bir şekilde tahmin edebilir; bu da onları yüksek hassasiyetli geri alma iş akışlarının kritik bir bileşeni haline getirir.

Graphic showing that embedding models generate a semantic representation of text that can then be used to calculate similarity by measuring the distance between two vectors. Reranking models implicitly generate a similarity score. — *Şekil 1. Embedding modeli ve yeniden sıralama modelinin anlamsal benzerlik hesaplama süreçlerine dair yüksek düzey bir kavramsal görünüm*

Bir çapraz kodlayıcı kullanarak, tüm korpusta her sorgu-pasaj çifti için bir ilişki puanı üretmek hesaplama bakımından maliyetli olabilir. Bu sorunu aşmak için, çapraz kodlayıcılar tipik olarak iki aşamalı bir süreçte kullanılır.

İlk aşamada, bir embedding modeli, sorgunun anlamsal temsilini oluşturur; bu temsil daha sonra milyonlarca olası adaydan daha küçük bir alt küme, genellikle onlu gruplara daraltmak için kullanılır. İkinci aşamada, çapraz kodlayıcı modeli, bu kısıtlı adayları işler, yeniden sıralar ve son olarak yüksek ilgili bir dizi üretir – genellikle sadece beş pasajdan oluşur. Bu iki aşamalı iş akışı, verimlilik ve doğruluk arasında bir denge kurarak, yeniden sıralama modellerini vazgeçilmez kılar.

Graphic showing use of the embedding model to select candidates from the entire vector database. These candidates are reranked by a reranking model to obtain the most relevant chunks. — *Şekil 2. RAG iş akışında bir embedding modeli ve yeniden sıralama modelinin birlikte kullanıldığı genel iki aşamalı iş akışı*

Yeniden Sıralama Modelleri RAG’yi Nasıl İyileştirebilir?

Bir büyük dil modelinin (LLM) çalıştırılması, bir embedding veya yeniden sıralama modeline göre önemli ölçüde daha pahalıdır. Bu maliyet, bir LLM’nin işlediği token sayısıyla doğru orantılı olarak artar. Bir RAG sistemi, en yüksek N adet ilgili bilgiyi getirirken, genellikle 3-10 arasında bir aralıkta, ardından bu bilgileri temel alarak bir cevap üretmek için bir LLM kullanır. N’nin artırılması genellikle maliyet ve doğruluk arasında bir denge kurmakla ilgilidir. Daha yüksek bir N, geri alıcının en alakalı bilgi parçasını dâhil etme olasılığını artırırken, aynı zamanda LLM adımının hesaplama masraflarını da artırır.

Geri alıcılar genellikle embedding modellerine dayanır; ancak bir yeniden sıralama modelinin bu süreçte yer alması üç potansiyel fayda sunar:

Doğruluğu maksimize ederken, RAG’nın çalıştırılması için gereken maliyeti yeterince azaltarak yeniden sıralama modelini karşılayabilir.
Doğruluğu korurken, RAG için gereken maliyetle birlikte önemli ölçüde azaltabilir.
Doğruluğu artırır ve RAG’nın çalıştırılması maliyetini düşürebilir.

Peki, bir yeniden sıralama modeli bu sonuçları nasıl elde edebilir? Anahtar, iki aşamalı geri alma sürecinin etkili kullanılmasındadır. İkinci aşamada yeniden sıralama için kullanılan aday sayısının artırılması, doğruluğu artırır. Ancak, bu aynı zamanda maliyeti artırır; bununla birlikte, LLM’ye kıyasla maliyetler marjinaldir. Örneğin: bir Llama 3.1 8B modeli, beş parça işlemek ve bir cevap üretmek için yaklaşık 75 kat daha fazla maliyet gerektirirken, NVIDIA NIM mikro hizmetleri ile oluşturulan NeMo Retriever Llama 3.2 yeniden sıralama modeli çok daha düşük maliyetle çalışmaktadır.

Yeniden Sıralama Modeli İstatistikleri

Premis anlaşıldıktan sonra, bu bölüm performans kıyaslamalarına odaklanacaktır. Aşağıdaki üç terimi anlamak önemlidir:

N_Base: Bir RAG iş akışında yeniden sıralama olmadan kullanılan parça sayısı (Temel Durum).
N_Reranked: Yeniden sıralama ile bir RAG iş akışında kullanılan parça sayısı.
K: Yeniden sıralama sürecinde sıralanan aday sayısı.

Bu üç değişkenle, tüm senaryoların temelini oluşturan üç denklem formüle edilebilir:

Denklem 1:N_Reranked <= N_Base
Denklem 2:RAG_Savings = LLM_Cost(N_Base) – (Reranking_Cost(K) + LLM_Cost(N_Reranked))
Denklem 3:Accuracy_Improvement = Reranking_Accuracy_Boost(K) + Accuracy(N_Reranked) – Accuracy(N_Base)

RAG’nın Çalıştırılması Maliyetini Yeterince Azaltarak Doğruluğu Maksimize Etmek

Bu senaryonun amacı, RAG tasarruflarını sıfıra indirirken, doğruluk iyileştirmelerini en üst düzeye çıkarmaktır. Bu nedenle Denklem 2’de K’yı ve N_Reranked’ı maksimize edelim ve belirli bir N_Base için bu maksimize işlemlerini Denklem 3’ü dikkate alarak yapalım. NVIDIA NIM’den elde edilen değerleri yerine koyarak sonuçları Şekil 3’te özetlenmiştir. Temel Doğruluk, N_base sayıda parça ile çalışan iş akışının doğruluğudur; İyileştirilmiş Doğruluk ise N_base-1 parçayı ve bir yeniden sıralama modelini kullanarak elde edilen doğruluktur.

Bar chart comparing Base Accuracy and Improved Accuracy showing that adding a reranking model improves accuracy across the board for a wide range of chunks for Llama 3.1 70B model. — *Şekil 3. Llama 3.1 70B model için yeniden sıralama modeli ile birlikte ve olmadan geri alma sisteminin doğruluk kıyaslaması*

Doğruluğu Korurken RAG’nın Çalıştırılması Maliyetini Azaltmak

Bu senaryonun amacı, doğruluğu olumsuz etkileyemeden maliyet tasarruflarını maksimize etmektir. Denklem 1’de, RAG tasarruflarını maksimize etmek için belirli bir N_Base için K ve N_Reranked’ı minimize etmemiz gerekir. Bunu yapmak için, doğruluk iyileşmesini sıfıra ayarlayın ve N_Base parçaları ile çalışırken doğruluğu eşleştirmek için K ve N_Reranked’ı dengeleyin. Bu dengelemenin sonuçları Şekil 4’te gösterilmiştir.

Bar chart showing that adding a reranking model reduces the cost of RAG by reducing the number of chunks. — *Şekil 4. N_Base parçalarını kullanan Llama 3.1 70B modeline sahip RAG iş akışının maliyetinin yeniden sıralama modeli ile azaltılabileceği gösterimi*

Doğruluğu Artırırken RAG’nın Çalıştırılması Maliyetini Düşürmek

Önceki iki senaryo, bir slider ölçeğinde iki uç noktadır. Bir uç nokta, maliyet düşürme amacına yönelikken, diğer uç nokta doğruluğun artırılmasıdır. Kullanıcılar, iki uç arasında denge sağlamak için parça sayısını artırıp azaltabilir ve yeniden sıralanacak parça sayısını ayarlayabilir.

NVIDIA NeMo Retriever ile RAG Sistemlerinizi Güncelleyin

Yeniden sıralama modelleri, yalnızca bir seçenek değil, aynı zamanda RAG iş akışlarına dönüştürücü bir ekleme olup, verimlilik ve hassasiyetin yeni seviyelerini açmaktadır. NVIDIA NeMo Retriever yeniden sıralama NIM mikro hizmetleri, maliyet azaltımı ve doğruluk iyileştirmesi konularında önemli faydalar sunarak paradigmaları yeniden tanımlamaktadır. Kıyaslamalar, %21.54 gibi dikkat çekici bir maliyet tasarrufu sağladıklarını ortaya koymaktadır.

Yeniden sıralama modeli yapılandırmalarının esnekliği, geliştiricilerin maliyet etkinliği ile performans kazançları arasında ideal dengeyi kurmalarına olanak tanır; bu da farklı kullanım durumları ve ölçeklenebilirlik taleplerine hitap eder. Bu faydalar, esas olarak RAG’nin üretim maliyetlerini azaltmakla ilişkilidir. Bu maliyet düşüşü, LLM’nin cevap oluşturmak için işlemesi gereken giriş token sayısını azaltmaktan kaynaklanmaktadır.

Bu sonuçlar, yeniden sıralama modellerinin marjinal iyileştirmelere sahip olduğu ve ek karmaşıklık getirdiği yönündeki eski algıyı sorgulamakta ve bugünün makine öğrenimi iş akışlarını optimize etmedeki önemli rollerini vurgulamaktadır.

NeMo Retriever Llama 3.1 yeniden sıralama NIM mikro hizmetini kullanarak RAG sisteminizi güncellemek için hemen build.nvidia.com‘da deneyin. Ayrıca kendi iş akışınızı oluşturmak için bir başlangıç noktası olarak NVIDIA AI Blueprint for RAG‘ye erişebilirsiniz.

2025 NVIDIA GTC etkinliğine katılarak verileriniz içindeki hızlı ve doğru içgörüleri açığa çıkaran en son geri alma iş akışları ve ajanatik teknikleri keşfetmek için bize katılın. İlgili oturumlara göz atın: