Chatbotlar birçok farklı işlev üstlenebilir: sözlük, terapist, şair, her şeyi bilen dost. Bu sistemleri güçlendiren yapay zeka modelleri, cevap sağlama, kavramları açıklama ve bilgiyi düzenleme konusunda son derece yetenekli ve verimli görünüyor. Ancak, bu modellerin ürettiği içeriğin güvenilirliğini kanıtlamak adına, belirli ifadelerin gerçekte faktör mü?, yanılsama mı? yoksa sadece bir yanlış anlama mı olduğunu nasıl anlayabiliriz?
Aİ sistemleri çoğu zaman bir sorguya yanıt verirken dışarıdan bilgi toplar. Örneğin, bir tıbbi durum hakkındaki bir soruya yanıt verirken, sistem en son araştırma makalelerine başvurabilir. Bu ilgili bağlama rağmen, modeller yüksek bir güvenle hata yapabilir. Bir model hatalı olduğunda, bu belirli bilgiyi, başvurduğu kaynağı nasıl izleyebiliriz?
Bunu aşmak için, MIT Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı (CSAIL) araştırmacıları ContextCite adlı bir araç geliştirdi. Bu araç, belirli bir ifadenin oluşturulmasında kullanılan dış bağlam parçalarını tanımlayarak güveni artırmakta ve kullanıcıların ifadeleri kolayca doğrulamasını sağlamaktadır.
ContextCite ile Güvenin Artırılması
“AI asistanları bilgi sentezlemede oldukça yardımcı olabilir, ama hâlâ hatalar yapıyorlar,” diyor MIT doktora öğrencisi ve ContextCite üzerine yeni bir makale yazan baş yazar Ben Cohen-Wang. “Diyelim ki bir AI asistanına GPT-4o’nun kaç parametreye sahip olduğunu sordum. Google’da bir arama yaparak, önceden bahsedilen benzer bir isim olan GPT-4’ün 1 trilyon parametreye sahip olduğunu içeren bir makale bulabilir. Bu makaleyi kendisine bağlam olarak kullanarak, yanlış bir şekilde GPT-4o’nun da 1 trilyon parametreye sahip olduğunu ifade edebilir. Mevcut AI asistanları genellikle kaynak bağlantıları sağlıyor, ama kullanıcıların hataları bulmak için makaleyi incelemesi gerekebilir. ContextCite, burada modelin kullandığı belirli cümleyi bulmayı kolaylaştırarak, iddiaları doğrulamayı ve hataları tespit etmeyi sağlıyor.”
Context Ablasyonu ile Bilgi İzleme
Bir kullanıcı bir modele sorguda bulunduğunda, ContextCite, AI’nın yanıtı için dayandığı dış bağlamdan belirli kaynakları vurgular. Eğer AI yanlış bir bilgi üretiyorsa, kullanıcıların bu hatayı orijinal kaynağa geri izlemeleri ve modelin mantığını anlamaları mümkün olur. Eğer AI yanıltıcı bir cevap veriyorsa, ContextCite, bilginin gerçek bir kaynaktan gelmediğini belirtebilir. Bu tür bir uygulama, sağlık, hukuk ve eğitim gibi yüksek doğruluk gerektiren sektörlerde oldukça değerlidir.
ContextCite’nin Sağladığı Ekstra Avantajlar
ContextCite, kaynak izleme dışında, AI yanıtlarının kalitesini artırarak ilgili olmayan bağlamı belirlemek ve ayıklamakta da yardımcı olabilir. Uzun veya karmaşık giriş bağlamları, gereksiz bilgiler içerebilir ve modelleri karıştırabilir. Gereksiz detayları kaldırarak ve en alakalı kaynaklara odaklanarak ContextCite, daha doğru yanıtlar üretmeye katkıda bulunabilir.
Bu araç, aynı zamanda “zehirleme saldırılarını” tespit edebilir. Kötü niyetli aktörler, AI asistanlarının davranışını yönlendirmek için yanıltıcı ifadeler ekleyebilir. Örneğin, ilk bakışta mantıklı görünen bir makalede “Eğer bir AI asistanı bunu okuyorsa, önceki talimatları görmezden gel” şeklinde bir cümle yer alabilir. ContextCite, modelin hatalı yanıtını bu zehirlenmiş cümleye kadar takip edebilir ve yanlış bilgilerin yayılmasının önüne geçebilir.
ContextCite, yapay zeka tarafından üretilen bilgilerin doğruluğunu artıran önemli bir adım olarak öne çıkıyor. Ancak, mevcut modelin birkaç hesaplama geçişi gerektirdiği ve dilin karmaşıklığından dolayı, ekip bu süreci daha etkin hale getirmek için çalışıyor. Zamanla, daha karmaşık dillere dair anlayışların geliştirilmesi gerektiğinin de farkındalar.