Parçalama stratejisi, büyük belgeleri daha küçük ve yönetilebilir parçalara ayırarak yapay zeka ile geri alma işlemini optimize etme yöntemidir. Zayıf parçalama, alakasız sonuçlar, verimsizlik ve azalan iş değeri gibi sorunlara yol açabilir. Ne kadar etkili bir şekilde ilgili bilgiler elde ediliyorsa, bu durum yapay zeka cevaplarının doğruluğunu belirler. Sayfa, bölüm veya belirli token boyutlarında parçalama gibi çeşitli seçenekler varken, hangi yaklaşımın spesifik kullanım durumunuza en uygun olduğunu nasıl belirlersiniz?
Bu blog yazısında, sisteminizin parçalama stratejisini optimize etmenize yardımcı olmak için çeşitli veri setleri üzerinde yaptığımız kapsamlı deneyimlerden elde ettiğimiz bilgiler paylaşılmaktadır. Özellikle geri alma destekli üretim (RAG) sistemleri üzerindeki olumlu etkilerinden bahsedeceğiz.
Giriş
Parçalama, RAG sistemlerinde kritik bir ön işleme adımıdır. Burada belgeler, etkili bir şekilde indekslenip geri alınabilen, yanıt üretiminde bağlam olarak kullanılabilecek daha küçük parçalara ayrılır. Bu işlem kötü yapıldığında, kullanıcıları yanıltan alakasız veya eksik yanıtlar meydana gelebilir, bu da sistemin güvenilirliğini zedeler. Ayrıca, gereksiz bilgi işlemek zorunda kaldıkları için hesaplama yükünü artırabilir.
Öte yandan, akıllıca tasarlanmış bir parçalama stratejisi, geri alma doğruluğunu ve bağlamsal tutarlılığı iyileştirir, bu da üretilen yanıtların kalitesini doğrudan artırır. Kullanıcılar için bu; daha hızlı, daha doğru ve daha faydalı etkileşimler anlamına gelir. İşletmeler için ise bu durum; artan kullanıcı memnuniyeti, daha düşük abonelik iptalleri ve daha verimli kaynak kullanımı ile sonuçlanan azalan operasyonel maliyetler anlamına gelir. Kısacası, parçalama sadece bir teknik detay değil; RAG sisteminizin etkinliğini şekillendiren temel bir tasarım seçimidir.
Deneysel Kurulum

Test Edilen Parçalama Stratejileri
Geri alma kalitesi ve yanıt doğruluğu üzerindeki etkilerini anlamak için üç ana parçalama yöntemini test ettik:
- Token tabanlı parçalama: Belgeler, NVIDIA NeMo Retriever çıkarımıyla 128, 256, 512, 1,024 ve 2,048 token boyutlarında sabit boyutlu parçalara bölünmüştür.
- Parçalar arasında %15’lik bir örtüşme ile (denediğimiz %10, %15 ve %20 örtüşme değerleri arasında, en iyi performansın %15 ile gerçekleştiğini FinanceBench’de bu boyutta gördük. Bu sonuç, endüstri uygulamalarında genelde görülen %10 – %20’lik örtüşme ile de uyumlu.)
- Sayfa tabanlı parçalama: Belgenin her bir sayfası ayrı bir parça olarak kabul edilmiştir.
- NeMo Retriever çıkarımı ve nemoretriever-parse ile uygulanarak parçalama stratejileri arasında adil bir karşılaştırma sağlanmıştır.
- Bölüm tabanlı parçalama: Belgeler, belge yapısındaki bölümlere göre — başlıklar, paragraflar ve diğer biçimlendirme unsurlarını takip ederek — nemoretriever-parse ile ayrılmıştır.
- Adil bir karşılaştırma sağlamak için, aynı nemoretriever-parse çıkarım modeli kullanılarak sayfa ve bölüm tabanlı parçalama karşılaştırılmıştır.
Veri Setleri
Bu stratejilerin çeşitli veri setleri üzerinde performansını değerlendirdik:
- DigitalCorpora767: Digital Corpora‘dan alınan 767 PDF’den oluşan bir kamu veri seti, metin, tablo, grafik ve infografik içeren toplamda 991 insan tarafından oluşturulmuş soru barındırmaktadır.
- Kazanç: İki iç veri kümesindeki 512 PDF’nin (kazanç raporları, danışmanlık sunumları) içinden 3,000’den fazla tablo ve infografik ile birlikte 600’den fazla insan tarafından değerlendirilmiş geri alma sorusu içermektedir.
- FinanceBench: Kamuya açık şirketlerle ilgili finansal soruları yanıtlamak için büyük dil modellerinin (LLM’ler) performansını değerlendirmek üzere tasarlanmış bir kıyaslama veri setidir. Gerçek dünya finansal belgeleri olan 10-K dosyaları ve kazanç raporları kullanılmaktadır.
- KG-RAG: Dokugami KG-RAG veri seti, geri alma destekli üretim (RAG) sistemlerini değerlendirmek için tasarlanmış belgeler ve anotasyonlu soru-cevap çiftlerini içermektedir. Gerçekçi uzun belgeler ve tek veya çoklu belgelerde farklı soru karmaşıklığı içermektedir.
- RAGBattlePacket: Deloitte‘dan alınmış vergi danışmanlığı PDF raporları koleksiyonu.
Değerlendirme Yöntemi
Farklı veri setleri arasında parçalama stratejilerini sistematik olarak karşılaştırmak ve RAG sisteminin performansındaki etkilerini ölçmek için kapsamlı bir değerlendirme çerçevesi oluşturarak daha az yanlılığı hedefledik.
- Temel metrik: Uçtan uca RAG yanıt doğruluğu.
- Değerlendirme süreci: Çeşitli yapılandırmalardaki çoklu deneme ile birçok yargı modeli.
Değerlendirme Metrikleri
Değerlendirmelerimizde kullanılan NV Yanıt Doğruluğu metriği, bir modelin yanıtı ile belirli bir soruya verilen referans gerçekliği arasındaki uyumu ölçmektedir.
Yanıt Doğruluğu metriği, Şunları içerir:
- Modelin ürettiği yanıtların doğruluğunu değerlendirmek için LLM yargıçları kullanılır.
- Model çıktıları, referans gerçeklerle karşılaştırılır.
- 0-4 arası bir ölçekte puanlama yapılır, bu durumda:
- 0: Yanıt yanlıştır veya soruyu yanıtlamamaktadır.
- 2: Yanıt kısmen referansla uyumludur.
- 4: Yanıt tam olarak referansla uyumludur.
Sağlamlığı sağlamak için her değerlendirme, farklı yargı modelleri ile birçok değerlendirici ile gerçekleştirilmiş ve averajlanarak nihai doğruluk metriği üretilmiştir. Deneylerimizde etkili değerlendiriciler olarak şunları kullandık:
- Mixtral 8x22B Instruct (mistralai/mixtral-8x22b-instruct-v0.1)
- Llama 3.1 70B Instruct (meta/llama-3.1-70b-instruct)
Bu büyük dil modellerinin yargıç olarak kullanılması, yüksek kaliteli değerlendirmeler sağlamış ve çoklu yargıç yaklaşımı (diğer bir deyişle “yargıçlar konseyi”) herhangi bir değerlendirme modelinin tek yanlı yanlılığını minimize eden bir yöntemle, tüm parçalama stratejileri üzerindeki güvenilirlik ölçümlerinin sağlanmasını desteklemiştir.
İçerik Giriş Çerçevesi
Deneylerimiz için farklı parçalama stratejileri arasında adil karşılaştırmalar sağlamak üzere iki farklı belgelerin içerik alım çerçevesi kullandık:
- NVIDIA NeMo Retriever: Sayfa ve token tabanlı parçalama stratejileri için içerik çıkarımı yapmak üzere kullanılmıştır. Bu mikro hizmet seti, karmaşık, yapılandırılmamış PDF’leri ve diğer kurumsal belgeleri ayrıştırmak için tasarlanmış ve şunları sağlar:
- Belge yapısını koruyarak yüksek kaliteli metin çıkarımı.
- Finansal raporlar ve teknik belgelerden tablolar ve grafiklerin yakalanması.
- Çeşitli veri setlerimizde yüzlerce belgeyi verimli bir şekilde işleyebilme yeteneği.
- nemoretriever-parse: Yapısal belge bölümleri için akıllıca başlıkları ve belge yapılarını tespit edebilme yeteneğinde spesifik olarak kullanılan bir modeldir. Sayfa ve bölüm tabanlı parçalama arasında adil bir karşılaştırma sağlamak için, sayfa tabanlı parçalamaların testinde aynı nemoretriever-parse çıkarımı kullanılmıştır.
Bu çift çerçeve yaklaşımı, her aracın güçlü yönlerinden yararlanmamızı sağlarken, parçalama stratejisi karşılaştırmalarımızın gerçek performans farklılıklarını yansıtmasını güvence altına almıştır. Parça tabanlı ve bölüm tabanlı parçalama karşılaştırmalarında, aynı nemoretriever-parse çıkarımını kullandığımız için çıkarıma dayalı değişkenlikleri ortadan kaldırdık ve daha kontrollü bir karşılaştırma elde ettik.
Önemli bir noktada, parçalama stratejilerimizin (sayfa tabanlı, bölüm tabanlı ve token tabanlı) belgelerin metin içeriğine uygulanmış olsa da, tablolar ve grafikler ayrı varlıklar olarak çıkarılmıştır. Bu unsurlar bölünmemiş veya parçalanmamış, bütün olarak korunmuştur; bu sayede, veri alma süresi boyunca karmaşık bilgilerin bütünlüğü ve bağlamı korunmuş olur ve RAG sistemi gerektiğinde tam tablolar ve grafiklere ulaşabilir.
RAG Sisteminin Uygulanması
Deneylerimizde, NVIDIA RAG Blueprint‘in bileşenlerini kullandık; bu, kurumsal düzey RAG boru hatları için kapsamlı bir referans uygulamasıdır. Bu Blueprint şunları sağlar:
- Kolay bileşen değiştirme ve değerlendirme imkanı sunan modüler mikro hizmet mimarisi.
- Metin, resim, grafik ve tablolar ile çok modlu veri işlemesine destek.
- Gelişmiş NeMo Retriever mikro hizmetleri ile gömme, tekrar sıralama ve LLM çıkarım entegrasyonu.
- Farklı hiperparametrelerle deney yapma için kapsamlı yapılandırabilme olanakları.
NVIDIA RAG Blueprint, parçalama deneyleri için oldukça uygun bir çalışma alanı sunarak, şunları sağlar:
- Birçok önceden yapılandırılmış parçalama stratejisi.
- Görevleri hızlı bir şekilde depolamak ve geri almak için veritabanı entegrasyonu.
- Performans farklılıklarını ölçmek için sağlam değerlendirme yetenekleri.
Eğer parçalama deneyleri yapıyorsanız ya da bir üretim RAG sistemi inşa ediyorsanız, bu Blueprint mükemmel bir başlangıç noktası olabilir: ilerleme sürenizi hızlandırırken, özelleştirme gereksinimlerinizi de karşılayabilir.
Parçalama stratejileriyle ilgili olarak yapılan tüm deneylerde aşağıdaki bileşenleri standartlaştırdık:
- Gömme modeli: nvidia/llama-3.2-nv-embedqa-1b-v2
- Tekrar sıralama modeli: nvidia/llama-3.2-nv-rerankqa-1b-v2
- Alım en iyi-k: 10 (üretim için geri alınan bağlam sayısı)
- Üretici modeli: nvidia/llama-3.1-nemotron-70b-instruct
Bu bileşenleri deneylerin tümünde tutarak, performans farklılıklarının parçalama stratejilerine değil, RAG boru hattının diğer kısımlarındaki değişkenliklere dayandığından emin olduk. NVIDIA’nın bu son derece etkili modelleri, geri alma ve üretim yeteneklerimizin temelini oluşturmakta ve farklı parçalama stratejilerinin RAG üzerindeki genel performans etkisini izole etmemize yardımcı olmaktadır.
Sonuçlar ve Analiz
Deneylerimiz, veri setleri arasında birkaç ilginç model ortaya koydu.
Parçalama Stratejisine Göre Genel Performans

Bu grafik, her bir parçalama stratejisi için, veri setleri arasında Ortalama uçtan uca RAG doğruluğunu göstermektedir. Hata çubukları standart sapmayı temsil etmektedir. Dikkat çekici bir şekilde, sayfa tabanlı parçalama ortalama doğruluk (0.648) ile en düşük standart sapmaya (0.107) ulaşarak veri setleri arasında daha tutarlı bir performans sunmuştur. Bununla birlikte, tüm token tabanlı yaklaşımlar arasında 0.603 ile 0.645 arasında tutarlı bir performans sergilemiştir.

Sayfa tabanlı parçalama ile bölüm tabanlı parçalamayı aynı nemoretriever-parse çıkarımı kullanarak doğrudan karşılaştırdığımızda, sayfa tabanlı parçalama ortalama olarak çoğu test verisi setinde bölüm tabanlı parçalamadan daha iyi bir performans gösterdiğini bulduk. Bu da sayfa tabanlı parçalamanın genel olarak daha etkili bir strateji olduğunu gösteriyor.
Veri Setine Özgü Performans

Bu grafik, RAG doğruluğunu, veri setleri ve parçalama stratejisi bazında detaylandırmaktadır; bu da farklı içerik türlerinin çeşitli parçalama yaklaşımlarına nasıl tepki verdiğini ortaya koymaktadır. FinanceBench ve RAGBattlePacket gibi bazı veri setlerinin orta boyutlu parçalarda (512-1024 token) optimum performans gösterirken, büyük parçalar (2,048 token) ile performansın düştüğü gözlemlenmiştir. Diğer taraftan, KG-RAG veri setinin farklı parçalama stratejileri arasında daha değişkenlik gösterdiği ve parçalama boyutu ile performans arasında net bir doğrusal ilişki bulunmadığı görülmektedir.

Sayfa ve bölüm tabanlı parçalama arasındaki karşılaştırma dikkate alındığında, çoğu durumda sayfa tabanlı parçalamanın bölüm tabanlı parçalamayı geride bıraktığı görülmekte; sadece FinanceBench, bölüm tabanlı parçalamanın biraz daha iyi performans gösterdiği tek veri setidir. Bu durum, belge yapısının önemli olduğunu gösteriyor, ancak doğal sayfa sınırları genellikle geri alma işlemleri için daha tutarlı ve etkili parça sağlayabiliyor.
Ana Gözlemler
- Sayfa tabanlı parçalama en iyi strareji: Deneylerimiz, sayfa tabanlı parçalamanın tüm veri setlerinde en yüksek ortalama doğruluk (0.648) ile en düşük standart sapmaya (0.107) sahip olduğunu açıkça gösterdi. Bu, hem token tabanlı hem de bölüm tabanlı parçalama stratejilerine kıyasla daha tutarlı performans sağlamıştır.
- Benzer belge türleri içinde çelişkili modeller: Aynı belge kategorisi içinde, en iyi parçalama stratejileri önemli ölçüde değişiklik göstermiştir. Örneğin, finansal belgelerde, üç farklı veri setinde optimal stratejilerin üçü de farklıdır: FinanceBench en iyi performansı 1,024 token ile elde ederken (0.579), Earnings veri setinde 512 token (0.681) ve KG-RAG ise sayfa tabanlı parçalama ile daha iyi sonuçlar almıştır (0.520). Bu durum, belirli içerik yapılarına ve bilgi yoğunluğuna göre farklı parçalama stratejilerinin anlamlı sonuçlar verdiğini gösteriyor.
- Aşırı parçalama boyutlarının getirisi azalmaktadır: Çok küçük (128 token) ve çok büyük (2,048 token) parçalar, genellikle orta boyutlu parçalara kıyasla düşük performans sergilemiştir. Örneğin, KG-RAG veri setinde 128 token parçalar (0.421), diğer stratejilere göre en düşük performansı sergilemiştir. Ayrıca, 2,048 token parçalar RAGBattlePacket’te 1,024 token parçalarına göre (0.749 vs 0.804) ve FinanceBench’te (0.506 vs 0.579) düşük performans göstermektedir. Bu durum, çoğu belge türü için “tatlı nokta”nın orta boyut aralığında olduğunu göstermektedir.
- Performans eğrileri her zaman lineer değildir: Bazı veri setlerinde performans, parçalama boyutuyla doğrusal bir şekilde artmamaktadır. Örneğin, Earnings veri seti 512 token’da (0.681) zirveye ulaşırken, 1,024 token’da (0.663) ve ardından 2,048 token’da (0.651) düşüş göstermiştir. RAGBattlePacket’te ise 128 token’dan (0.749) 1,024 token’a (0.804) kadar daha lineer bir artış gözlemlenmiştir.
- Soru özellikleri en iyi parçalama boyutunu etkiler: Her veri setindeki sorgunun doğası, en etkili parçalama stratejileri ile ilişkilidir. Özellikle, DigitalCorpora767 ve Earnings veri setleri, belli başlı gerçekleri arayan sorgular içerdiklerinden küçükten orta boyutlu parçalarda (256-512 token) iyi performans sergilemiştir.
Parçalama Stratejinizi Seçerken Dikkat Edilmesi Gerekenler
Bulunan bulgularımıza dayanarak, parçalama stratejinizi seçerken dikkate almanız gereken pratik öneriler aşağıdadır:
1. Öncelikle sayfa tabanlı parçalamayı düşünün
Deneylerimiz, sayfa tabanlı parçalamanın çeşitli belge türleri arasında en tutarlı performansı sağladığını göstermektedir. Önerilerimiz:
- Sayfa tabanlı parçalamayı varsayılan strateji olarak kullanmaya başlayın (NeMo Retriever çıkartması ile).
- Her veri seti için en iyi olmasa da, genel olarak en yüksek ortalama doğruluk ve en tutarlı performansı sağlar.
- Sayfa tabanlı parçalama, sabit sınırları olduğu için alıntı yapma ve referans verme imkanını da kolaylaştırmaktadır. Bu, token tabanlı parçalamada seçilen boyuta göre parça indekslerinin değişkenlik göstermesi ile karşılaştırıldığında daha stabil bir referans sunmaktadır.
2. İçerik türünüzü göz önünde bulundurarak ince ayar yapın
Sayfa tabanlı parçalamanın dışına çıkmak isterseniz:
- Finansal belgeler: FinanceBench’e benzeyen belgeleriniz varsa, 512 veya 1,024 token’lık parçalar deneyebilirsiniz (NeMo Retriever çıkarımı ile). Bölüm tabanlı parçalama da bazen sayfa tabanlı parçalamayı geçebilir.
- Çeşitli belgeler: Küçük token boyutlu parçalar (256-512 token), çeşitli içerik koleksiyonları için iyi performans sergilemiştir.
3. Soru özellikleri performansı etkiler
- Gerçek bilgi arayan sorgular: Sayfa tabanlı parçalama veya daha küçük parçalara (256-512 token, NeMo Retriever çıkarımı ile) odaklanın.
- Karmaşık analitik sorgular: Sayfa tabanlı parçalama veya büyük parçalar (1,024 token, NeMo Retriever çıkarımı ile) kullanın.
Bu stratejileri kendi verilerinizle değerlendirmenizi öneriyoruz; farklı sorgu kalıpları ve içerik yapılarına sahip olduğunuz için, en iyi performansı sağlamak için deneme yapmanız önemli.
4. Birden fazla yaklaşımı test edin
Sayfa tabanlı parçalama önerilen başlangıç noktasıdır, ancak spesifik kullanım durumunuz için birden fazla parçalama stratejisi denemenizi öneririz:
- Sayfa tabanlı parçalamayı temel olarak alın.
- İçerik türünüze göre 1-2 ek parçalama stratejisi seçin.
- Veri setinizde küçük ölçekli bir değerlendirme yapın.
- Hem niceliksel metrikleri hem de niteliksel yanıt kalitesini analiz edin.
- Sonuçlara göre yineleyin ve refine edin.
Sonuç
Kapsamlı değerlendirmelerimiz, sayfa tabanlı parçalamanın RAG sistemleri için en etkili parçalama stratejisi olduğunu göstermektedir. Bu yöntem, hem ortalama doğrulukta hem de performans tutarlılığında önemli bir avantaja sahiptir. Belirli içerik türleri bazen alternatif stratejilerden fayda sağlasa da, sayfa tabanlı parçalama; içerik türleri, sorgu tarzları ve geri alma senaryoları arasında dengeli bir performans sunmaktadır.
Özellikle belge sınırları genellikle tutarlı bilgi kümeleri kapsadığı için, veri sağlamada etkilidir. Ancak, RAG sisteminizin özel kullanım durumu, içerik türü ve sorgu örüntüleri gereksinimlerinize göre değişebilir. Sayfa tabanlı parçalama ile başlayarak, bu yazıda belirtilen kılavuzlara göre sistematik bir şekilde alternatifleri değerlendirerek RAG sisteminizin performansını optimize edebilirsiniz.
Unutmayın, parçalama yalnızca RAG sisteminde çok sayıda hiperparametreden biridir. En iyi sonucu elde etmek için gömme modelleri, tekrar sıralama stratejileri ve üretim parametreleri gibi diğer boyutları da keşfedin.
NVIDIA RAG Blueprint ile Başlayın
NVIDIA RAG Blueprint’i kendiniz denemeniz için sizi cesaretlendiriyoruz. Bu kurumsal düzey referans uygulaması, farklı parçalama stratejileri ile denemeler yapmanıza, son teknoloji gömme ve yeniden sıralama modellerinden yararlanmanıza ve minim geliştirme süresi ile üretim hazır bir RAG sistemi oluşturmanıza imkan tanır.