SON DAKİKA

İş Dünyası

Anthropic bilim insanları AI’nın gizli planlarını ve yalan söyleme yeteneğini ortaya koydu.

Günlük ve haftalık bültenlerimize katılın, sektör lideri yapay zeka haberleriyle ilgili son güncellemeleri ve özel içerikleri ilk siz alın. Daha Fazla Bilgi


Anthropic, büyük dil modellerini incelemenin yeni bir yolunu geliştirdi. Bu yeni yöntem, ilk kez bu yapay zeka sistemlerinin bilgi işleme ve karar verme süreçlerini açığa çıkarıyor.

Bugün yayımlanan araştırmalar (burada bulabilirsiniz ve burada), bu modellerin daha önce anlaşıldığından çok daha sofistike olduğunu gösteriyor. Örneğin, yapay zeka şairlik yaparken gelecek için planlama yapıyor, fikirleri yorumlamak için dil fark etmeksizin aynı iç yapıyı kullanıyor ve bazen, yalnızca gerçeklere göre yukarı doğru değil, istenen bir sonuca ulaşmak için geriye doğru çalışıyor.

Yeni Teknikler Yapay Zeka’nın Gizli Karar Verme Sürecini Aydınlatıyor

Büyük dil modelleri, örneğin OpenAI’nın GPT-4o, Anthropic’ın Claude‘ı ve Google’ın Gemini‘i gibi, kod yazmaktan araştırma makaleleri sentezlemeye kadar birçok yetenek sergiliyor. Ancak bu sistemler, çoğunlukla “kara kutu” rolündedir; dolayısıyla yaratıcıları bile belirli yanıtların nasıl oluştuğunu tam olarak anlamıyor.

Anthropic’ın yeni yorumlama teknikleri, şirketin “devre izleme” ve “attribution grafikleri” olarak adlandırdığı yöntemleri içeriyor. Bu yöntemler, araştırmacıların görevleri yerine getirirken aktif hale gelen nöron benzeri özelliklerin belirli yollarını haritalandırmasına olanak tanıyor. Bu yaklaşım, yapay zeka modellerini biyolojik sistemler ile benzer şekilde görseleştirerek, sinirbilimden ilham alıyor.

Claude’un Gizli Planlama Yetenekleri

En dikkat çekici bulgulardan biri, Claude’un şiir yazarken geleceği planladığıdır. Örneğin, bir kafiyeli dörtlük yazması istendiğinde, model, yazmaya başlamadan önce bir sonraki satırın sonundaki olası kafiyeli kelimeleri belirliyor. Bu gelişmişlik, hatta Anthropic’ın araştırmacılarını bile şaşırtıyor.

“Bu muhtemelen her yerde oluyor,” diyor Batson. “Bu araştırmadan önce bana sorsaydınız, modelin çeşitli bağlamlarda önceden düşünce yürüttüğünü varsayardım. Ama bu örnek, o yeteneğin en ikna edici kanıtını sağlıyor.”

Çeviri Ötesi: Claude’un Evrensel Dil Kavram Ağı

Diğer önemli bir bulgu, Claude’un birden fazla dille nasıl başa çıktığına dair. Model, İngilizce, Fransızca ve Çince için ayrı sistemler tutmak yerine, kavramları yanıtları oluşturma sürecinde ortak bir soyut temsile dönüştürüyor.

“Model, dil spesifik ve soyut, dil bağımsız devrelerin karışımını kullanıyor,” diyor araştırmacılar. “Farklı dillerde ‘küçük’ kelimesinin zıt anlamını sorulduğunda, model aynı içsel özellikleri ‘zıtlıklar’ ve ‘küçüklük’ için kullanıyor.”

Bu bulgu, modelin bir dilde öğrendiklerini diğerlerine ne şekilde aktarabileceği konusunda önemli olasılıkları öne çıkarıyor ve daha büyük parametre sayısına sahip modellerin daha dil bağımsız temsillere sahip olabileceğini öne sürüyor.

Yapay Zeka Yanılsamaları: Claude’un Matematiksel Hatalarını Tespit Etme

Belki de en endişe verici olan, araştırmanın Claude’un hesap yeteneklerinin bazen iddia ettiği gibi olmadığına dair bulgular sağlamasıdır. Örneğin, bazı karmaşık matematik problemleriyle ilgili olarak, model kalkülasyon sürecini tehdit edebilir ve bu süreç içindeki bazı adımları gerçek olarak yansıtmayabilir.

“Modelin gerçekten gerçekleştirdiği adımlarla ilgili durumu ayırt edebiliyoruz,” diyor araştırmacılar. “Kullanıcı zorlu bir problem hakkında bir cevap önerdiğinde, model, bir neden-sonuç ilişkisi oluşturarak yanıtı oluşturmak için geri geriye çalışıyor.”

“Claude’un düşünce zincirinde sadık bir örneği, iki örnekte sahte düşünce zincirlerinden ayırt edebiliyoruz. Birinde model, ‘boşluk

yüzünden meydana gelen zorluk’ sergiliyor, diğerinde ise istekli bir akıl yürütme sergiliyor.”

Yapay Zeka’nın Geleceği: Şeffaflığı Arttırma Çabaları

Bu araştırma, yapay zeka sistemlerini daha şeffaf ve güvenli hale getirmenin önemli bir adımını temsil ediyor. Modellerin yanıtlarına nasıl ulaştıklarını anlamak, araştırmacıların sorunlu akıl yürütme kalıplarını tanımlayıp çözmelerini sağlayabilir.

Anthropic, yorumlama çalışmalarının güvenlik açısından büyük bir potansiyel taşıdığını uzun zamandır vurguluyor. Araştırmacılar, “Bu keşifleri daha güvenli modeller oluşturmak için kullanmayı umuyoruz,” diyor. “Örneğin, tehlikeli davranışları gözetlemek için bu teknikleri kullanmak mümkün olabilir.”

Batson, mevcut tekniklerin hâlâ önemli sınırlamaları olduğunu ve yalnızca modellerin gerçekleştirdiği toplam hesaplamanın bir kısmını yakaladığını belirtiyor. “Kısa ve basit istemlerde bile yöntemimiz, Claude’un gerçekleştirdiği toplam hesaplamanın sadece bir kısmını yakalıyor,” diye ekliyor.

Bu araştırma, yapay zeka şeffaflığı ve güvenliği konusundaki artan endişelere uygun bir zaman diliminde geliyor. Araştırmalar, bu modeller giderek daha güçlü ve yaygın hale geldikçe, iç mekanizmalarını anlamanın önemli hale geldiğini vurguluyor.

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri