SON DAKİKA

Nvdia

“En İyi Sınıf Multimodal RAG: Llama 3.2 NeMo Retrievıer Gömülü Modeli ile Pipeline Doğruluğunu Artırma”

Görsel ve Metinsel Veri ile Yenilikçi Yaklaşımlar

Veri, yalnızca metinle sınırlı değildir; aynı zamanda görüntüler, videolar, sesler gibi çoklu modalitelerde gelir ve genellikle karmaşık ve yapılandırılmamış formatlarda bulunur. PDF’ler, taranmış görüntüler ve sunumlar gibi belgeleri metne dönüştürmek yaygın bir yöntem olsa da, tüm bilgiyi metin formatında yakalamak zordur. Bu durum, Şekil 1de gösterildiği gibi görsel bilginin kaybına yol açar.

Multimodal Dil Modellerinin Gelişimi

Text bilgisi kaybı, multimodal dil modellerinin (VLM’ler) geliştirilmesine yol açtı. Bu modeller, hem metin hem de ham görüntüleri işleyebilir ve uygun yanıtlar üretebilir.

An image describing the complexities in converting the visual content in documents into text.
Şekil 1. Görsellerde daha özlü ifade edilen bilgi derecesinin artışı (görsel kaynağı: Multimodal RAG’a Kolay Bir Giriş)

VLM’ler, gördüğümüz ile söylediğimiz arasında köprü kurarak, bilgisayarlı görü ile doğal dil işleme (NLP) alanlarını birleştirir. Görsel ve metinsel bilgileri anlamak ve işlemek için makineleri güçlendirirler; bu da görsel soru yanıtlama, çoklu arama ve görsel açıklama üretimi gibi daha doğal ve faydalı uygulamalara yol açar. Genellikle, eşleşen metin ve görüntülerden oluşan geniş veri setleri üzerinde eğitilirler. Geçtiğimiz yıl, VLM’lerin karmaşık görselleri işleme yeteneğinde önemli ilerlemeler kaydedilmiştir.

The image describes both the text-RAG and vision-RAG pipelines. In the text-RAG, an OCR-based approach is used to parse the text input, which is fed into a text-based embedding and reranker model, and finally, an LLM model generates the response. In the vision-RAG pipeline, documents’ images are directly fed to the vision embedding and reranking models, and then a VLM model is used to generate the response.
Şekil 2. Metin tabanlı RAG boru hattı ile multimodal RAG boru hattı arasındaki fark.

Geleneksel ve Multimodal Yaklaşımlar

Geleneksel retrieve-augmented generation (RAG) boru hatları genellikle metin verisi üzerine odaklanır. Şekil 2de gösterildiği üzere, belgeler genellikle karmaşıktır ve metne ayrılması gerekir. Son zamanlarda, VLM’lerdeki ilerlemeler onları daha iyi, daha güvenilir ve daha küçük hale getirmiştir.

Multimodal RAG boru hatları oluşturmak giderek daha popüler hale geliyor, çünkü bu tür boru hatları karmaşık metin çıkarma adımlarına ihtiyaç duymuyor. Ancak, VLM’ler halen metin tabanlı LLM’lerden daha fazla halüsinasyon yapma eğilimindedir. VLM’lerin olası sınırlamalarını azaltmak için çok doğru bir geri alma adımı kritik öneme sahiptir; burada multimodal (görsel) embedding modelleri önemli bir rol oynar.

Görsel ve Metin Embedding Modellerinin Önemi

Multimodal (görsel) embedding modeller, hem görüntüleri hem de metinleri ortak bir özellik alanına haritalandırarak daha etkili çapraz modalite geri alımını sağlar. Bu yetenek, belirli metin sorguları için en ilgili görselleri bulmak veya bir görüntü girdisine dayalı olarak ilgili metni geri almak gibi görevler için oldukça önemlidir. Ürün bir arama motoru, içerik öneri sistemi veya büyük multimedya veri setlerini düzenlemek için bir araç geliştiriyorsanız, görsel-dil embedding modelleri hızlı ve anlamlı çapraz modalite geri alımı için temel bir yapı taşıdır.

Multimodal bilgi geri alma sistemleri geliştirmek, multimodal embedding ve sıralayıcı modellere sahip sağlam geri alma bileşenlerini entegre etmeyi içerir. Kullanıcı sorgusu verildiğinde, geri alma sistemleri ilgili belge görüntülerini çıkartabilir. Ardından, VLM, alınan sonuçları bağlam olarak alarak kullanıcının sorgusunu yanıtlayabilir.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri