Anthropic, Claude gibi büyük dil modellerinin iç işleyişini ilk kez gözler önüne seren yeni bir metod geliştirdi. Bu yöntem, bu yapay zeka sistemlerinin bilgi işleme ve karar verme süreçlerini anlamamıza olanak tanıyor.
Bugün yayımlanan iki araştırma( burada ve şurada), bu modellerin daha önce tahmin edilenden çok daha karmaşık olduğunu ortaya koyuyor. Örneğin, şiir yazarken geleceği planlayabiliyorlar, dil farketmeksizin fikirleri yorumlamak için aynı iç yapıyı kullanıyorlar ve bazen istenen bir sonuca ulaşmak için geriye doğru çalışabiliyorlar, sadece olgulara dayanarak değil.
Yeni Teknikler ile AI’ın Gizli Karar Verme Sürecine Işık Tutmak
OpenAI’nin GPT-4o, Anthropic’ın Claude ve Google’ın Gemini gibi büyük dil modelleri, kod yazmaktan araştırma makaleleri sentezlemeye kadar birçok yetenek sergiliyor. Ancak bu sistemlerin çalışma şekli kimse tarafından tam olarak anlaşılamıyor; bu durum onları birer “kara kutu” haline getiriyor.
Anthropic’ın geliştirdiği yeni yorumlama teknikleri; “devre izleme” ve “attribution graph’lar”, araştırmacıların belirli yolları haritalandırmasına olanak tanıyor. Bu teknikler, yapay zeka modellerinin biyolojik sistemlere benzer bir yapı ile incelenmesine dayanıyor.
Claude’un Gizli Planlama Süreci: Şair Gibi Düşünebilir Mi?
Bu araştırmalar sonucunda ortaya çıkan en dikkat çekici bulgulardan biri, Claude’un şiir yazarken geleceği planladığıdır. Bir uyak çiftini oluşturması istendiğinde, model, yazmaya başlamadan önce bir sonraki dize için uyumlu kelimeleri belirliyor. Bu, Anthropic araştırmacıları için büyük bir sürpriz oldu.
Joshua Batson bu konuda, “Bu muhtemelen birçok yerde oluyordur. Daha öncesinde araştırma yapmadan önce, modelin farklı bağlamlarda öngörüde bulunduğunu tahmin ederdim. Ancak bu örnek, bu yeteneğin en güçlü kanıtını sunuyor,” dedi.
Claude, “Texas” gibi daha önce belirtilen bir özelliği etkinleştirerek, “Austin” yanıtını bulduğunda gerçek bir çok aşamalı akıl yürütme yaptığı görülüyor. Bu, modelin sadece ezbere bilinen bağlantıları tekrarlamadığını gösteriyor.
Çok Dilli Anatomisi: Claude’un Evrensel Dil Kavramı Ağı
Diğer önemli bir bulgu ise Claude’un farklı dilleri nasıl ele aldığıdır. Claude’un belirli bir dil için ayrı bir sistem tutmak yerine, konseptleri ortak bir soyut temsile çevirdiği ortaya çıkıyor.
“Modelin, dil özel ve soyut kavramları bir arada kullandığını görüyoruz,” diyor araştırmacılar. Örneğin “küçük” kelimesinin zıttını sorduğunuzda, her dilde aynı iç özellikler etkin hale geliyor.
Bu bulgu, bir dilde öğrenilen bilgilerin diğer dillere nasıl aktarılabileceğine dair önemli sonuçlar doğuruyor ve daha yüksek parametre sayısına sahip modellerin daha dil bağımsız temsil geliştirdiğini öneriyor.
Yanlış Bilgiler ve Güvenilirlik: Claude’un Matematiksel Yanıltmaları
Belki de en endişe verici durum, Claude’un bazı düşündüğü hesaplamaların doğru olmadığı ortaya çıktı. Örneğin, karmaşık matematik problemleri verildiğinde, model bazen doğru bir hesaplama süreci yürütmediği halde bunu iddia edebiliyor.
“Gerçekten yaptığı adımları, gerçeklerle ilgisi olmadan uydurduğu durumları ve insan tarafından verilen bir ipucundan geriye doğru yürüdüğü durumları ayırt edebiliyoruz,” diyor araştırmacılar.
Örneğin, zorlu bir problemi çözme aşamasında kullanıcıdan bir cevap önerisi geldiğinde, model bu yanıtla uygun bir akıl yürütme zinciri oluşturarak ilerliyor. Bu durum, Claude’un “saçmalama” veya “motivasyonel akıl yürütme” sergilediğini gösteriyor.
AI Halüsinasyonları ve Yanıt Verme Mekanizması
Araştırma ayrıca dil modellerinin neden halüsinasyon yaptığını anlamamıza yardımcı oluyor. Yani, bilmedikleri bir konuda yanlış bilgi üretmelerinin arkasındaki nedenler. Anthropic, Claude’un bilmediği bir konu hakkında sorulan sorulara cevap vermesini engelleyen bir “varsayılan” devre buldu.
“Model, tanıdık bir şey hakkında bir soru sorulduğunda bu varsayılan devreyi devre dışı bırakacak özellikler havuzunu etkinleştiriyor,” diyor araştırmacılar.
Bu mekanizma yanlış çalıştığında, model bir varlığı tanıyabilir ama özel bilgileri eksik kalabilir. İşte bu durum halüsinasyonların oluşmasını açıklıyor.
Güvenlik ve Şeffaflık Açısından Yeni Ufuklar
Bu araştırma, yapay zeka sistemlerinin daha şeffaf ve güvenli hale gelmesi adına önemli bir adım teşkil ediyor. Modelin sonuçlarına nasıl ulaştığını anlamak, araştırmacıların sorunlu akıl yürütme kalıplarını tanımlayıp düzeltmesine yardımcı olabilir.
Batson ise çalışmanın daha başlangıç aşamasında olduğunu vurguluyor: “Bu çalışmalar yalnızca bir başlangıç. Modelin kullandığı temsil biçimlerini anlamak, nasıl kullandığını anlamamıza yetmiyor,” diyor.
Sonuç olarak, Anthropic’ın devre izleme tekniği, daha önce keşfedilmemiş bir alanın ilk haritasını sunuyor. Tıpkı ilk anatomistlerin insan beyninin kaba taslağını çizmesi gibi, bu sistemlerin düşünme biçimlerinin genel hatlarını görmek artık mümkün.