SON DAKİKA

Nvdia

VLM ile Karmaşık Belgeleri Kullanışlı Verilere Dönüştürün: NVIDIA NeMo Retriever Parse ile Verimliliğinizi Artırın

Kurumsal işletmeler, araştırma raporları, iş sözleşmeleri, finansal tablolar ve teknik kılavuzlar gibi belgelerde büyük miktarda yapısal olmayan veri üretir ve depolar. Bu verilerden anlamlı bilgiler çıkarmak, karmaşık düzenler, yapı değişkenliği ve sayfalar arası sürekliliği koruma gibi zorluklar nedeniyle geleneksel optik karakter tanıma (OCR) teknolojileri için hala bir meydan okumadır.

Sayfa unsurlarının, örneğin başlıklar, alt başlıklar ve ana içerik gibi, doğru bir şekilde sınıflandırılması, çok sayfalı belgeler arasında yapının korunması için esastır. Tablo, grafik ve matematiksel formüller gibi karmaşık içerikler ve iç içe geçmiş öğeler de basit metin tanımanın ötesinde bir yapısal anlayış gerektirir. Ayrıca, büyük raporlardan formatlı mektuplara kadar geniş değişkenlik gösteren belge yoğunlukları, OCR işlemesini daha da karmaşık hale getirir. Bu zorluklar, belgeleri anlayan ve anlamı, yapıyı ve okuma düzenini güvenilir bir şekilde ölçekleyerek koruyan yerleşim-dikkatli, akıllı modellere olan ihtiyacı vurgular.

Yüksek Hassasiyetli Belge Anlayışı İçin Dönüştürücü Tabanlı VLM

NVIDIA NeMo Retriever Parse, OCR teknolojilerinin yetersizliklerini aşar ve belge akıllılığına en zorunsuz şekilde yanıt verir. NeMo Retriever Parse, en zor belge akıllılığı yönlerini ele almak için tasarlanmış optimize edilmiş bir modeldir ve görsel dil modeli (VLM) teknolojisi üzerine inşa edilmiştir.

Bu model, metin ve tablo çıkarımını gelişmiş bir şekilde gerçekleştirir ve belge mekansal anlama kapasitesine sahiptir. Yapısal ve yapısal olmayan belgeleri, işlemlenebilir veriye dönüştürerek iş yerlerinin ve araştırmacıların verileriyle etkileşim biçimini iyileştirir. NeMo Retriever Parse, çok modlu alım ve geri alma boru hatları oluşturmak için yüksek doğruluk ve maksimum veri gizliliği sağlamak adına NeMo Retriever ailesinin bir parçasıdır.

Belge İleri Görüşü ve Geri Alma Süreçlerini Geliştirmek

Dijital dünya, yapılandırılmış bilgi ile beslenir. Bilimsel araştırmalar, hukuki sözleşmeler veya kurumsal raporlar olsun, belge akıllılığı, bilgiye erişim ve karar verme için kritik bir öneme sahiptir. NeMo Retriever Parse, belge akıllılığını geliştirmek için:

  • Geri alma doğruluğunu artırır: Belge bileşenlerini doğru bir şekilde sınıflandırarak ve segmentlere ayırarak geri alma boru hatlarını güçlendirir. NeMo Retriever Parse, belge düzenini korumak için sınırlı alanları kullanarak metin çıkarımını daha bağlamsal hale getirir.
  • Yapısal içerik çıkarımı:büyük dil modelleri (LLM) ve VLM doğruluğunu, yüksek kaliteli ve yapısal metin çıkarımı ile artırır. NeMo Retriever Parse, metinleri, tabloları ve yapı unsurlarını doğru bir şekilde işleyerek eğitim veri setlerini ve çıkarım işlemlerini zenginleştirir.
  • Çok modlu zeka ile belgeleri işler: PDF, PowerPoint sunumları gibi dosya formatları üzerinde çalışarak, metin, tablo ve belge özelliklerini çıkarırken yeni verimlilikler açar.

Teknik İnceleme

NeMo Retriever Parse, verimlilik ve doğruluk için optimize edilmiş bir 900M parametreli modeldir. Model Mimarisi aşağıdaki özellikleri içerir:

  • Yüksek performanslı görsel-dil modelleme için NVIDIA C-RADIO çerçevesi.
  • Latent alanı 13,184’ten 3,200’e indiren adaptif sıkıştırma katmanları.
  • Yapısal metin yeniden yapımı için 10 bloklu mBART dönüştürücü.
  • Yüksek kaliteli belge tokenizasyonu için Galactica tabanlı tokenleştirici.

NeMo Retriever Parse, yapılandırılmış ve yapısal olmayan belgelerde hızlı ve etkili çıkarım sağlamak amacıyla karmaşık belge düzenlerini ve anlamlarını derinlemesine anlamayı mümkün kılar. Bunun için ağır bir görsel kodlayıcı ve hafif bir kod çözücü kullanır.

Eğitim ve Doğruluk Değerlendirmesi

NeMo Retriever Parse, büyük ölçekli bir pre-training aşamasından sonra çeşitli veri kümeleri üzerinde incelenmiştir. Bu eğitim, ne kadar zorlu belgelerle başa çıkabileceğini ve metin ile tablo çıkarımını ne kadar doğru yapabildiğini göstermektedir.

Model, ince ayar sırasında veri kümesinde mevcut olan etiketlere bağlı olarak hedef çıktı formatını dinamik bir şekilde ayarlayabilir. Bu, çeşitli bilgi yoğunluğu gereksinimleriyle başa çıkabilmesi için önemli bir yöntemdir. Sonuç olarak, bu model, daha güçlü bir iç temsil geliştirmeye yönelik çoklu-token eğitimini (MTT) de içermektedir.

Sonuç olarak, NeMo Retriever Parse, önemli belgelere erişim ve dönüştürmeyi sağlamak için yüksek doğruluklu ve yapılandırılmış bir çıkış akışı oluşturur.

Sonuç ve Gelecek Öngörüsü

NVIDIA NeMo Retriever Parse, beleğiniz neden olur ve belge akıllılığı alanında bir adım daha ileriye götürür. Belgeleri saatli bir şekilde düzenleyerek daha etkili bir şekilde örgütlenmeyi ve kullanmayı olanaklı hale getirir. Şu anda İngilizce odaklı olan proje, Çince ve el yazısı belgeleri destekleyecek şekilde genişletilmektedir.

Gelecekte, gelişmiş belge anlamayı sağlamak için bağlam uzunluklarının artırılması planlanmaktadır. NVIDIA’nın NeMo Retriever Parse VLM modelini denemek için erişebilirsiniz.

Katkıda Bulunanlar: Ilia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Andrew Tao, Karan Sapra

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri