“PDF Verilerinin Bilgi Elde Etimi için Çıkartım Yöntemleri”

PDF formatı, finansal raporlar, araştırma makaleleri, teknik belgeler ve pazarlama materyalleri gibi bilgilerin paylaşımında en yaygın dosya formatlarından biridir. Ancak, etkili arz-tamamlama (RAG) sistemleri geliştirilirken, PDF’lerden yararlı içerikleri çıkarmak büyük bir zorluk teşkil etmektedir. Bu, özellikle grafik, tablo ve infografik gibi karmaşık unsurlar için geçerlidir. Çıkarılan metnin doğruluğu ve netliği, arayıcının kullanıcı sorgularına uygun bağlamı sunabilme yeteneğini doğrudan etkiler.

Bu zorluğu aşmak için iki ana yaklaşım ortaya çıkmıştır: optik karakter tanıma (OCR) sistemleri ve görsel dil modelleri (VLM).

Özelleşmiş OCR Boru Hattı

Özelleşmiş OCR boru hattı: NVIDIA’nın NeMo Retriever PDF Çıkarma boru hattı gibi sistemler, belirli unsurları (grafikler, tablolar vb.) bulmak için nesne tanıma aşaması ve her bir unsur tipine özgü özel OCR ve yapı farkındalığına sahip modellerin uygulandığı çok aşamalı bir süreç kullanır.

Görsel Dil Modelleri

VLM’ler: Bu güçlü, genel amaçlı AI modelleri hem görüntü hem de metni işleyebilir, grafik ve tablo gibi görsel unsurları doğrudan PDF sayfa görüntüsünden anlamlandırma ve tanımlama potansiyeli sunar. Örneğin, Llama 3.2 11B Vision Instruct, görüntü duyarlı talimatları izlemek için ince ayar yapılmış, 11 milyar parametreli multimodal bir modeldir.

RAG geliştiricileri genellikle hangi yaklaşımın en mantıklı olduğunu sorar: özel bir çok model boru hattı mı yoksa tek bir genel amaçlı VLM mi? Bu soruya cevap bulmak için, NeMo Retriever boru hattını bir VLM tabanlı yaklaşımla karşılaştıran deneyler gerçekleştirdik ve odak noktamız, aşağı yönlü çıkarım performansına odaklandık. Bulgularımız, bu özel çıkarım görevinde, özel boru hattının şu anda doğruluk ve verimlilik açısından belirgin avantajlar sunduğunu göstermektedir.

Deneysel Kurulum

Temel amacımız, her iki yaklaşımın (temel ve alternatif) çıkarılan metinlerinin aşağı yönlü retrieval’i nasıl desteklediğini ölçmektir.

  • Veri setleri: İki ayrı veri seti kullanılmıştır.
    • Kazanç veri seti: 3.000’den fazla grafik, tablo ve infografik içeren 512 PDF’den oluşan dahili bir koleksiyon ve 600’den fazla insan tarafından not edilen sorgu içerir.
    • DigitalCorpora 10K veri seti: 10.000 PDF’den oluşan çeşitli bir genel benchmark, metin, tablo, grafik ve infografikler için 1.300’den fazla insan tarafından not edilen sorgu içerir.
  • Değerlendirme metriği: Recall@5 kullanarak ölçülmüştür; bu, gerçek sayfanın en iyi beş sonuç arasında sıralandığı sorguların yüzdesidir. Daha yüksek recall, çıkarılan metin temsilinin doğru bilgiyi bulma etkisini artırır.
  • Arayıcı: Bu çıkarım yöntemlerinin metne dayalı retrieval için adil bir karşılaştırmasını sağlamak için, hem temel OCR ile çıkarılan metin hem de VLM tarafından üretilen açıklamalar için aynı gömme modelini (Llama 3.2 NV EmbedQA 1B v2) ve sıralayıcıyı (Llama 3.2 NV RerankQA 1B v2) kullandık. Her iki yöntem de en iyi k parçayı almak için kullanılabilir ve aşağı yönlü cevap oluşturma aşaması gerekirse herhangi bir LLM veya VLM ile gerçekleştirilebilir. Bu nesne çıkarımı aşaması, bu yazının kapsamı dışındadır.

Sıralama Doğruluğu Karşılaştırması

Kazanç veri setinde genel doğruluklar neredeyse aynıydı. Ancak, daha geniş bir çeşitliliğe sahip olan DigitalCorpora 10K veri setinde açık bir fark gözlemlendi. Temel NeMo Retriever boru hattı, VLM’ye göre tüm görsel modalitelerde daha iyi performans gösterdi ve genel olarak %7.2’lik bir fark elde edildi.

Temel ve alternatif yaklaşımların çıkarım süreçlerini karşılaştırmak için, hem örnekleme hem de uygulama açısından avantajlı olan NeMo Retriever boru hattının kullanımının, doğru bilgiyi bulmadaki faydası ortaya kondu. Bunu, test edilen her iki yaklaşımla elde edilen veriler arasında yaptığımız karşılaştırmalarla açıkladık ve tüm süreçlerin detaylarını sunduk.

Verimlilik ve Pratik Düşünceler

Doğruluğun ötesinde, gerçek dünya uygulaması, milyonlarca sayfanın ne kadar hızlı ve maliyet etkin bir şekilde işlenebileceğine bağlıdır. Gecikme, yeni belgelerin ne kadar hızlı arama sonuçlarında görüneceğini etkilerken, verimlilik, ne kadar makineye ihtiyaç duyduğunuz ve ne kadar harcama yapacağınız üzerinde belirleyicidir. Her iki boru hattının sonu-do-latency ve verimlilik performansını ölçmek amacıyla test ettik. NeMo Retriever OCR boru hattının sayfa başına 0.118 saniyelik bir latensi vardır, bu, PDF sayfalarını görsellere dönüştürme, sayfadaki ögeleri tespit etme ve unsurlardan metin çıkarma işlemlerini içerir.

Llama 3.2 11B Vision Instruct VLM, grafik resmi başına ortalama 2.58 saniye, tablo resmi başına 6.86 saniye ve infografik resmi başına 6.60 saniye ortalama çıkarsama sürelerine sahiptir. Genel olarak, tüm DigitalCorpora 10K veri setinde sadece görüntüden metne adımının ortalama işleme süresi sayfa başına 3.81 saniyedir.

Sonuç ve Gelecek Adımlar

Sonuç olarak, karmaşık PDF unsurlarından (grafikler, tablolar ve infografikler) bilgi çıkarma konusunda iki yaklaşımı karşılaştırdık:

  • Özelleşmiş bir OCR tabanlı yaklaşım: NVIDIA NeMo Retriever PDF Çıkarma boru hattı.
  • Genel amaçlı bir VLM tabanlı yaklaşım: Llama 3.2 11B Vision Instruct.

Bu iki yöntemi bir retrieval boru hattı çerçevesinde benchmarkladık. VLM’ler, özel veri alma yeteneklerine sahip olmaksızın belge ayrıştırma becerilerini göstermiştir. Ancak, OCR tabanlı NeMo Retriever boru hattı, test edilen veri setlerinde daha yüksek retrieval recall ulaştı ve ayrıca throughput, işlem süresi ve çıkarsama verimliliği anlamında güçlü performans avantajları sundu.

NVIDIA, geliştiricilere, özelleşmiş çıkarım görevleri için yüksek optimize edilmiş modeller ile güçlü, genel amaçlı VLM’ler dahil olmak üzere bir dizi seçenek sunarak, spesifik ihtiyaçlarına en uygun yaklaşımı seçmelerine olanak tanımaktadır.

Henüz dönüşüm tamamlanmamış gibi görünse de gelecek yazılarımda VLM’lerin karmaşık görsel içerikten doğrudan cevap oluşturmada nasıl avantajlar sağladığını incelemeyi planlıyorum.

NVIDIA RAG Blueprint ile Başlayın

Bu yazıda tartışılan PDF çıkarım stratejilerinizi optimize etmeye hazır mısınız? NVIDIA AI Blueprint for RAG ile başlayın; bu referans çözüm, gerekli tüm bileşenleri sağlar:

  • Farklı PDF çıkarım yaklaşımlarını kullanarak denemeler yapın.
  • En son gömme ve gömme yeniden sıralama modellerinden yararlanın.
  • Minimum geliştirme süresi ile üretim hazır bir PDF çıkarım boru hattı oluşturun.

Kaynak

Nvdia Blog

Exit mobile version