GraphRAG ile Soru-Cevap Doğruluğunu Artırma: PyG ve Grafik Veritabanları Kullanımı

Büyük Dil Modelleri ve Problem Çözümü

Büyük Dil Modelleri (LLM’ler), özel alanlardaki sorularla başa çıkmada genellikle zorluk yaşarlar. Özellikle çoklu adım mantık yürütme veya özel verilere erişim gerektiren durumlarda bu durum belirginleşir. Retrieval-Augmented Generation (RAG) bu aşamada yardımcı olabilse de, geleneksel vektör arama yöntemleri sıklıkla yetersiz kalmaktadır.

Bu makalede, GraphRAG uygulamasını yapmayı göstereceğiz. Bu yöntem, özel olarak eğitilmiş GNN + LLM modelleri ile birleştirilerek standart temel yöntemlere kıyasla %100 doğruluk artışı sağlamaktadır.

GraphRAG Nasıl Çalışır?

GraphRAG, G-Retriever mimarisi üzerine inşa edilmiştir. G-Retriever, bilgileri bir bilgi grafiği olarak temsil eder ve grafik tabanlı bir arama ile sinirsel işlemleri birleştirir:

Bilgi grafiği oluşturma: Alan bilgisini bir grafik yapısı olarak temsil edin.
Akıllı arama: Grafik sorguları ve Yarışma Toplama Steiner Ağaçları (PCST) algoritmasını kullanarak ilgili alt grafikleri bulun.
Sinirsel işleme: Alınan bağlam üzerinde dikkat optimizasyonu sağlamak için GNN katmanlarını LLM ince ayarı sürecine entegre edin.

Gerçek Dünya Örneği: Biyomedikal Soru-Cevap

Bunu somut olarak görmek için STaRK-Prime biyomedikal veri setine göz atalım. Örneğin, “CYP3A4 enzimini hedefleyen ve strongyloidiasis tedavisinde kullanılan ilaçlar nelerdir?” sorusunu ele alalım.

Doğru cevap (Ivermektin) şu bilgileri anlamayı gerektirir:

Doğrudan ilişkiler (ilaç-enzim, ilaç-hastalık bağlantıları)
Düğüm özellikleri (ilaç tanımlamaları ve sınıflandırmaları)

Uygulama Detayları

Bu makaleyi takip etmek için Neo4j ve Cypher sorguları hakkında bilgi sahibi olmanızı öneririz. PyTorch Geometric (PyG) hakkında temel kullanım bilgisine sahip , LLM’lerde model ince ayarı konusundaki deneyim ve Vektör arama konusunda anlayışınız olmalıdır.

Verileri hazırlamak için seri hale getirilmiş .pt dosyaları kullanılmaktadır. Bu dosyaları Neo4j veritabanına yüklemek için stark_prime_neo4j_loading.ipynb dosyasından faydalanabilirsiniz.

Sonuçlar

Bu yaklaşımın önemli iyileştirmeler sağladığını görüyoruz. Aşağıda bazı temel bulgularımızdır:

32% hits@1: Temel ölçütlere göre iki kat daha fazla.
Pipelıne yaklaşımı: Pruned subgraphs ve G-Retriever’ in güçlü yanlarını birleştirir.
Alt saniye çıkarım süresi: Gerçek dünya sorguları için.

Uygulama süresi içerisinde, bir soruya yanıt vermek için temel alt safhayı almak, PCST uygulamak ve tüm ara adımları birkaç saniye içerisinde tamamlayabiliriz.

Zorluklar ve Gelecek Çalışmalar

Mevcut yöntemlerde bazı zorluklar ve sınırlamaları bulunmaktadır:

Hiperparametre karmaşıklığı: Çok sayıda parametre performansı etkilemektedir.
Veri seti zorlukları: Polisemik/synonim terimleri yönetmek zordur.

Okuyucular için gelişme yönünde bazı önerilerimiz var:

Gelişmiş mimari: Grafik transformörlerini keşfetmek, ve daha karmaşık alt grafik yanıtları desteklemek.
Sağlamlık: Eksik veya gürültülü grafiklerle başa çıkmak.

Gelecek çalışmalar için daha fazla bilgiye /neo4j-product-examples GitHub reposu ile ulaşabilirsiniz.

SON DAKİKA

GraphRAG ile Soru-Cevap Doğruluğunu Artırma: PyG ve Grafik Veritabanları Kullanımı