Alıntıların doğruluğu, hem akademik hem de yapay zeka destekli içeriklerin bütünlüğünü korumak için kritik öneme sahiptir. Yanlış veya hatalı alıntılar, okuyucuları yanıltabilir ve yanlış bilgilere yol açabilir. Sidney Üniversitesi’nden makine öğrenimi ve yapay zeka konusunda uzmanlaşmış bir araştırmacı ekibi olarak, semantik alıntı doğruluğunu verimli bir şekilde kontrol edebilen ve analiz eden yapay zeka destekli bir araç geliştirmekteyiz.
Bir iddianın referansına atıfta bulunmak, okuyucuların geçerliliğine güven duymalarını sağlarken, yazarın güvenilirliğini de artırır ve bilgilerin kaynağını göstererek şeffaflığı teşvik eder. Ancak, semantik alıntı doğruluğunu sağlamak – yani iddiaların yalnızca eşleşmesini değil, aynı zamanda belirtilen kaynağın sonuçlarını yanlış ya da bozularak yansıtmadan onaylamak – zaman alıcıdır ve genellikle derin konu bilgisi gerektirir.
Yanlış alıntıların neden olduğu hayal kırıklıklarını ilk elden yaşayarak, güçlü ve ölçeklenebilir bir çözüm geliştirmeye karar verdik; bu çözüm, Semantik Alıntı Doğrulama aracıdır. Bu araç, alıntı doğrulama sürecini basitleştirerek çeşitli alanlarda araştırma bütünlüğünü artırır.
Alıntı Doğrulama İhtiyacı
Alıntı doğrulama ihtiyacı, büyük dil modellerinin (LLM) giderek daha fazla benimsenmesiyle birlikte daha da önem kazanmıştır. Son zamanlardaki alım artırılmış nesil (RAG) yöntemleri, üretilen içerikteki yanılgıları azaltmaya yardımcı olsa da, güvenilirlik oluşturmanın büyük zorlukları devam etmektedir. Bu sorunu, Araştırma Etki Değerlendirme Uygulaması gibi projeler üzerinde çalışırken de deneyimledik. Bu uygulama, tıpta ve sağlıkta bilimsel çalışma için özel etki raporları üretmektedir. Ancak, güçlü olmasına rağmen, mevcut durumda alıntı iddialarının bağımsız olarak doğrulanması veya orijinal kaynaklardaki ifadelerle uyumlu olup olmadığının kontrolü sağlanamamaktadır.
Semantik Alıntı Doğrulama Aracı
Bu yazıda, alıntı doğrulama süreçlerini hızlandırmayı, yüksek doğruluk sağlamayı ve alıntılanan materyalin daha derin anlaşılmasını destekleyen ilgili bağlamsal kesitler sunmayı hedefleyen Semantik Alıntı Doğrulama aracını tanıtıyoruz. Bu araç, gerçeklerin ifade edilişini, referans metinleriyle karşılaştırarak otomatik olarak doğrulama yapmaktadır. NVIDIA NIM mikro hizmetlerini kullanarak geliştirilen araç, referans veri setlerinde eğitilmiş özelleştirilmiş bir model ile esnek dağıtım seçeneklerini birleştirmektedir.
Teknik Uygulama ve NVIDIA Entegrasyonu
Semantik Alıntı Doğrulama aracı, Aralık 2024’te Avustralya’da düzenlenen Üretken AI Kod Festivalinde ortaya çıkmıştır. Uygulama stratejisi, NVIDIA NIM ekosistemini kullanarak mikro hizmet tabanlı bir uygulama geliştirmek üzerine odaklanmıştır. Özellikle, bilgilerle ilgili yüksek doğruluk ve maksimum veri gizliliği sunan NVIDIA NeMo Retriever ile birlikte, semantik analiz ve doğrulama için ince ayarlı dil modellerine ulaşmıştır.
Ana NVIDIA bileşenleri şunlardır:
- Gelişmiş gömme ve yeniden sıralama: NVIDIA’nın özel servisleri, metni yüksek boyutlu gömleklere dönüştürerek geçerliliği koruyacak şekilde alıntıları sıralar. Bu, içerik süzme işlemlerinde yanlış pozitifleri önemli ölçüde azaltır.
- LLM destekli doğrulama: NVIDIA NIM kullanarak LLM’ler ile, sistem sıralanan geçerlilik geçerlilikleri üzerinde derin semantik analizler gerçekleştirir, uzman görüşü ile uyumlu doğrulama kararları sağlar.
- Model ince ayarı: Doğruluğu ve işleme hızını optimize etmek amacıyla, özelleştirilmiş bir alıntı iddiaları veritabanı kullanarak LLama 3.1 modellerini (8B ve 70B varyantları) ince ayar yaptık. Veritabanı, 2024 yılına ait en çok alıntılanan yayınlardan alınmıştır.
İşlem Süreçleri ve Akış Şeması
Semantik Alıntı Doğrulama aracı, beş aşamalı bir süreçten oluşmaktadır:
- Girdi İşleme: Alıntı ifadelerini ve referans belgelerini, yerleşik format doğrulama ve hata yönetimi ile yöneten sağlam bir giriş sistemi ile başlar.
- Belge İşleme: Format doğrulama, ayrıştırma ve stratejik parçalama işlemleri ile yüksek boyutlu gömleklere dönüşüm sağlar.
- Vektör Yönetimi: Hızlı geri alım ve azalan işleme yükü için belge ve vektör depolama için çift yerine getirme mimarisi uygular.
- Eşleşme ve Analiz: Tamamıyla doğrulama için benzerlik eşleştirme, yeniden sıralama ve LLM analizi birleştirilmiştir.
- Çıktı Üretimi: Destek sınıflandırması, doğrulama gerekçesi, ilgili kesitler ve güven puanları üretir.
Bu işlem süreci, LangChain ve ChromaDB’yi RAG uygulamasında kullanmaktadır ve OpenAI ile NVIDIA modeline entegre olabilmektedir. Aşağıda, Semantik Alıntı Doğrulama aracının işlem akışını gösteren bir görsel bulunmaktadır.
Araç Arayüzü ve Temel Özellikler
Başlangıç aşamasında, kullanıcıların alıntı doğrulama aracına kolayca erişebilmesi ve iş akışını otomatik alıntı doğrulama ile hızlandırmak için Streamlit kullanarak sezgisel bir web arayüzü geliştirdik.
Kullanıcılar, alıntı ifadelerini ve referans dosyasını doğrudan girebilir. Sistem, bu bilgileri işler ve üç temel çıktı üretir:
- Sınıflandırma (örneğin, bu durumda PARTİYAL DESTEKLİ)
- Açıklama ve sınıflandırmanın gerekçesi (örneğin, üç spesifik noktanın listelendiği durum)
- Kaynak metinden ilgili destekleyici kesitler
NVIDIA Mikroservisleri ile Alıntı Doğrulama
Konfigürasyon arayüzü, çekirdek NVIDIA entegrasyonlarının, esnek LLM sağlayıcı seçimi, optimize edilmiş gömme hizmetleri ve güçlü geri alım mekanizmalarını sergileyen bir yapı sunmaktadır. Yerel uç nokta yapılandırması, hassas verilerin güvenli bir şekilde işlenmesi ile performansı bir araya getirir.
Sonuç olarak, Semantik Alıntı Doğrulama Aracı, alıntı ifadelerini karşılaştırarak otomatik olarak doğrulama yapmaktadır. Bu araç, NVIDIA NIM mikro hizmetleri ile geliştirilmiş, ayrıca yaygın LLM API sağlayıcıları için sağlanan destek ile özelleştirilmiştir.
Bize katılın ve bu değişimin bir parçası olun. Daha fazla bilgi ve güncellemeler için RefCheckAI adresini ziyaret edin.
Teşekkürler
Bu çalışma, Open Hackathons programının bir parçası olarak gerçekleştirilen Üretken AI Kod Festivali’nde tamamlanmıştır. OpenACC-Standard.org’a ve Avustralya Hükümeti Sanayi, Bilim ve Kaynaklar Bakanlığı’na destekleri için teşekkür ederiz. Bu proje, Sydney Üniversitesi’nden Sidney Bilgi Merkezi (SIH) tarafından desteklenmiştir.