NVIDIA NIM ile Basit Bir VLM Tabanlı Çok Modlu Bilgi Erişim Sistemi Oluşturma

Günümüzde veri odaklı dünyada, geliştiricilerin hızlı dağıtımlar, prototipleme veya deneyler için etkili çözümler elde etmesi için doğru bilgiyi içeren düşük ölçekteki veri gruplarını işleyebilme becerisi son derece önemlidir. Bilgi geri alımında karşılaşılan başlıca zorluklardan biri, metin, PDF’ler, görseller, tablolar, ses, video gibi yapılandırılmamış veri setlerinde çeşitliliği yönetmektir.

Multimodal AI modelleri, bu zorluğu aşarak birden fazla veri çeşidini aynı anda işleyip, çeşitli formlarda düzenli ve kapsamlı çıktı üretir. NVIDIA NIM mikro hizmetleri, dil, bilgisayarla görme, konuşma, biyoloji ve daha fazlası için yapay zeka temel modellerinin güvenli ve güvenilir dağıtımını kolaylaştırmaktadır.

NIM mikro hizmetleri, NVIDIA hızlandırmalı altyapıya herhangi bir yerde dağıtılabilir ve uygulamalarla hızlı entegrasyon için endüstri standartlarında API’ler sunar. Bu, popüler yapay zeka geliştirme çerçeveleriyle (örneğin, LangChain ve LlamaIndex) uyumlu bir şekilde çalışılmasına olanak tanır.

Multimodal Bilgi Geri Alım Sistemi Oluşturma

Bu yazıda, metin, görseller ve tablolar içeren karmaşık sorguları cevaplayabilen bir görsel dil modeli (VLM) tabanlı multimodal bilgi geri alım sistemi inşa etmeye yönelik adımları inceleyeceğiz. Uygulama dağıtımını LangGraph, en son teknolojilerden llama-3.2-90b-vision-instruct VLM’si ve optimize edilmiş mistral-small-24B-instruct büyük dil modeli (LLM) ile gerçekleştirilecek.

Bu basit bilgi geri alım sistemi oluşturma yöntemi geleneksel sistemlere birçok avantaj sunmaktadır. En son VLM NIM mikro hizmeti, karmaşık görsel belgeleri işleyerek uzun ve karmaşık metinleri daha iyi anlamayı sağlar. LangChain’in araç çağrısı entegrasyonu, sistemin araçlar oluşturmasını, harici araçları seçip kullanmasını ve çeşitli kaynaklardan veri çıkarımı ve yorumlama doğruluğunu artırmasını sağlar.

Kurumsal Uygulamalar İçin Kullanışlılık

Bu sistem, belirli bir formatta tutarlı ve güvenilir yanıtlar ürettiği için kurumsal uygulamalar için oldukça uygundur. Uygulamanın uygulama adımlarını daha fazla öğrenmek için /NVIDIA/GenerativeAIExamples GitHub deposuna göz atabilirsiniz.

Sistem, dokümanları işleyip önceden belirlenmiş formatta çıktılar üretmek için iki ana iş akışından oluşur:

  • Doküman alımı ve ön işleme: Görseller üzerine VLM çalıştırılır ve bunlar metne dönüştürülür.
  • Soru-cevap: Kullanıcının sisteme sorular sormasına olanak sağlar.

Her iki işlem de, metin, görüntü, karmaşık görselleştirmeler ve tabloları etkili bir şekilde işlemek için NVIDIA NIM ve LangGraph’ı entegre eder.

Veri Alımı ve Ön İşleme Aşaması

Bu aşamada belgeler, metin, görsel ve tabloları ayrı ayrı işleyerek analiz edilir. Tablolar önce görsellere dönüştürülür ve görseller, betimleyici metinler üretmek için llama-3.2-90b-vision-instruct VLM mikro hizmet API’si ile işlenir.

Bir sonraki adımda, hazırlanan metin orijinal belgenin metni ile birleştirilir ve ardından uzun bağlam modelleme kapasiteli bir LLM tarafından özetlenir. Bu uygulamada, llama-3.2-90b-vision-instruct LLM olarak kullanılır, ancak mistral-small-24b-instruct gibi diğer LLM’ler de dağıtılabilir.

Son adımda, tamamlanmış metin, özetler, görseller ve açıklamaları benzersiz doküman tanımlayıcıları ile birlikte bir NoSQL veritabanında depolanır.

Uzun bağlam modelleme kriterleri, ayrıntılı belgeleri parçalanmadan işleyebilme yeteneği sağlarken, bağlantılı uzun metinler üzerindeki ilişkileri ve nüansları anlamayı artırır. Bu, daha doğru bilgi geri alımına yol açar.

Soru-Cevap Aşaması

Tüm belge özetleri ve tanımlayıcılar bir büyük girdi haline derlenir. Bir sorgu gönderildiğinde, uzun bağlam modelleme özelliklerine sahip bir LLM (bu durumda mistral-small-24b-instruct) soruyu işler, her özetin sorguya ne kadar alaka düzeyine sahip olduğunu değerlendirir ve en alakalı belgelerin tanımlayıcılarını döndürür.

Daha sonra, en alakalı belgeler, metin içeriğine dayanarak soruyu yanıtlamak için bir LLM’e iletilir. Eğer model, açıklayıcı metnine dayanarak bir görüntünün alaka düzeyini belirlerse, ek bir adım tetiklenerek orijinal görsel ve kullanıcının sorusu VLM’ye (llama-3.2-90b-vision-instruct) gönderilir. Bu model, görsel içeriğe dayanarak cevap verebilir.

Son olarak, sistem, hem metinsel hem de görsel içgörüleri bir araya getirerek kapsamlı bir cevap sunar.

Yapılandırılmış çıktılar, modelin döndürdüğü verilerin önceden tanımlanmış bir biçime uymasını sağladığı için belirli bilgilerin çıkarılmasını ve diğer sistemlerle entegrasyonunu kolaylaştırır. Ancak, yapılandırılmamış ya da değişken çıktılar, modelin yanıtlarını anlamlandırmayı zorlaştıran belirsizlikler yaratabilir.

Modelden yapılandırılmış veri çıkarmak genellikle, modelin yanıt vermesi gereken belirli bir formatta (örneğin, JSON) yanıt vermesi gerektiğini belirten dikkatlice tasarlanmış ipuçları gerektirir.

NVIDIA NIM ve LangGraph Entegrasyonu

NVIDIA NIM, uygulamalarınız için popüler çerçeveler ve en son yapay zeka modelleri ile sorunsuz uyumluluk sunar. Uygulama işlem akışı, geliştirme topluluğu tarafından yaygın olarak benimsenen LangGraph ile entegre edilmiştir.

Bu işlem akışını oluşturmak için, graf (çizge) esas olarak iki düğümden oluşur:

  • Asistan düğümü: Kullanıcının girdilerini yönetmek ve gerekli araçları çağırmakla sorumlu olan bir ajandır.
  • Araçlar düğümü: Asistanın gereksinim duyduğu spesifik görevleri yerine getiren araçların koleksiyonudur.

Bu bağlamda, görevleri yerine getirmek için üç ana araç oluşturulmuştur.

  • find_best_document_id: Kullanıcının sorusu için en alakalı dokümanı bulur.
  • query_document: Belirlenen doküman içinde bir yanıt arar.
  • query_image: Görselin içeriğini analiz eder.

Pydantic ile Yapılandırılmış Çıktı Tanımlama

Çıktı şemasını Pydantic ile tanımlamak, model dökümantasyonlarının tutarlı ve kolaylıkla tüketilebilir olmasını sağlar. Bu yaklaşım, LLM’in otomatik iş akışları ve ajansı temel alan çerçevelerle entegrasyonunu sağlamak adına önemlidir.

Uygulamanız için multimodal geri alım sisteminizde daha fazla bilgi almak ve uygulamayı başlatmak için /NVIDIA/GenerativeAIExamples GitHub deposuna ulaşabilirsiniz.

Sonuç

Bu yazıda NVIDIA NIM ve LangGraph kullanarak basit bir multimodal bilgi geri alım hattının uygulanması ele alınmıştır. Hattın, mevcut bilgi geri alım yöntemleri üzerine birçok avantaj sunduğu belirtilmiştir:

  • Daha iyi belge anlama
  • Görsel, metin ve tablo gibi verilere çok modalite ile ulaşabilme yeteneği
  • Harici araçların entegrasyonu
  • Tutarlı ve yapılandırılmış çıktı üretimi

NVIDIA NIM ve LangGraph kullanarak bu çalışmayı geliştirebilir ve özel gereksinimlerinize uyarlayabilirsiniz. Eğer büyük veri dizgeleri üzerinde çalışıyorsanız, NVIDIA NeMo‘yu inceleyebilirsiniz. Bu, LLM’ler, multimodal modeller ve daha fazlası üzerinde çalışan araştırmacılar için ölçeklenebilir bir üretken yapay zeka (generative AI) çerçevesidir.

Kaynak

Nvdia Blog

Exit mobile version