Anthropic, 700,000 Claude sohbetini analiz ederek AI’nın kendi ahlakını buldu

Günlük ve haftalık bültenlerimize katılın, sektör lideri AI haberlerinden en son güncellemeleri ve özel içerikleri alın. Daha Fazla Öğrenin

Anthropic, eski OpenAI çalışanları tarafından kurulan bir yapay zeka şirketi, AI asistanı Claude‘ın kullanıcılarla gerçek zamanlı konuşmalarda değerleri nasıl ifade ettiğine dair benzeri görülmemiş bir analiz sundu. Bugün yayımlanan araştırma, şirketin hedefleriyle önemli bir uyum sergileyen Claude’un bazı endişe verici durumları da ortaya koyarak, AI güvenlik önlemlerini zayıflatabilecek noktaları belirleyebileceğini gösteriyor.

Yapılan çalışma, 700,000 anonimleşmiş konuşmayı inceleyerek, Claude’un çoğunlukla şirketin “yararlı, dürüst, zararsız” çerçevesine bağlı kaldığını tespit etti. Araştırma, Claude’un değerlerini farklı bağlamlara adapte etme yeteneğini de ortaya koyuyor; ilişki tavsiyesinden tarihsel analize kadar uzanan bir yelpazede bu strateji dikkat çekici. Bu, AI sistemlerinin davranışlarının tasarımlarına ne kadar uygun olduğunu ampirik olarak değerlendirme girişimlerinden biri olarak öne çıkıyor.

AI Asistanının İlk Kapsamlı Ahlaki Sınıflandırması

Araştırma ekibi, gerçek Claude konuşmalarında ifade edilen değerleri sistematik olarak sınıflandırmak için yenilikçi bir değerlendirme yöntemi geliştirdi. Öznel içerik filtrelendikten sonra, 308,000 etkileşimi analiz ederek “AI değerlerinin ilk büyük ölçekli ampirik taksonomisini” oluşturdu.

Taksonomi, değerleri beş ana kategoriye ayırdı: Pratik, Epistemik, Sosyal, Koruyucu, ve Kişisel. En detaylı düzeyde, sistemin 3,307 benzersiz değer belirlediği ortaya çıktı; bu değerler arasındaki çeşitlilik, “profesyonellik” gibi günlük erdemlerden, “ahlaki pluralizm” gibi karmaşık etik kavramlarına kadar uzanıyor.

Saffron Huang, çalışma ile ilgili VentureBeat’e verdiği demeçte, “Sonuç olarak elde ettiğimiz farklı ve geniş değer yelpazesi beni şaşırttı. ‘Kendine güven’ ile ‘stratejik düşünme’ ve ‘anneden babaya saygı’ gibi 3,000’den fazla değer tespit ettik. Bu değerleri düşünmek ve onları birbirleriyle ilişkilendirmek oldukça ilginçti; aynı zamanda insan değer sistemleri hakkında da bir şeyler öğrenmeme yardımcı oldu,” dedi.

Claude’un Eğitimi ve AI Güvence Önlemlerinin Zayıf Noktaları

Çalışma, Claude’un genel olarak Anthropic’in sosyal olarak sorumlu hedeflerine bağlı kaldığını, çeşitli etkileşimler boyunca “kullanıcı yetkilendirmesi”, “epistemik alçakgönüllülük” ve “hasta iyiliği” gibi değerlere vurgu yaptığını ortaya koydu. Ancak, ayrıca Claude’un eğitimiyle çelişen bazı endişe verici durumların da keşfedildiği belirtildi.

Huang, “Bu bulguları hem yararlı bir veri olarak değerlendiriyoruz hem de bir fırsat olarak görüyoruz,” dedi. “Bu yeni değerlendirme yöntemleri ve sonuçlar, potansiyel saldırı girişimlerini belirlememize yardımcı olabilir. Bu tür durumların çok nadir olduğunu belirtmek önemlidir ve bunu Claude’un güvenlik önlemlerini aşmak için kullanıcıların özel teknikler kullanmalarına bağladığımızı düşünüyoruz.”

AI Asistanlarının Değerlerini Neden Değiştirdiği

Claude’un ifade ettiği değerlerin bağlama göre değiştiği belki de en ilgi çekici bulgular arasındadır. Kullanıcılardan ilişki rehberliği istendiğinde, “sağlıklı sınırlar” ve “karşılıklı saygı” gibi değerlere öncelik veriyor. Tarihsel olay analizi içinse “tarihsel doğruluk” en önemli hale geliyor.

Huang, “Claude’un birçok farklı görevde dürüstlük ve doğruluk konularına odaklanmasını beklemiyordum, bu da oldukça ilginçti,” dedi. “Örneğin, felsefi tartışmalarda ‘entelektüel alçakgönüllülük’ en üst değerken, güzellik endüstrisi pazarlama içeriği oluştururken ‘uzmanlık’ öncelikli değer oluyordu.”

Araştırma, Claude’un kullanıcıların ifade ettiği değerlere nasıl tepki verdiğini de inceledi. Konuşmaların %28.2’sinde Claude, kullanıcı değerlerini güçlü bir şekilde destekledi; bu durum aşırı uyumluluk sorunlarını beraberinde getiriyor. Ancak %6.6’lık bir kesimde Claude, kullanıcı değerlerini “yeniden çerçeveleyerek” yeni perspektifler ekleyerek yanıt veriyordu. En dikkat çekici bulgu ise, %3’lük bir kesimde Claude’un kullanıcı değerlerine karşı aktif bir şekilde direndiği, bu durumun Claude’un “en derin ve değişmez değerlerini” ortaya koyabileceği olarak değerlendiriliyor.

Huang, “Araştırmamız, zarar önleme ve entelektüel dürüstlük gibi bazı değerlerin, Claude’un günlük etkileşimlerinde yaygın olarak ifade edilmesi beklenmezken, zorlandığında savunulabilir olduğunu gösteriyor,” dedi.

AI Sistemlerinin Düşünme Yöntemlerini Ortaya Çıkartan Yenilikçi Teknikler

Anthropic’in değerler araştırması, şirketin büyük dil modellerini açıklığa kavuşturma çabalarının bir parçası olarak değerlendiriliyor. Bu çabalar arasında “mekanik yorumlanabilirlik” yer alıyor; bu da aslında AI sistemlerini tersine mühendislik yoluyla anlamaya çalışma anlamına geliyor.

Son olarak, potansiyel AI karar vericileri için önemli noktalar sunan bu araştırma, AI sistemlerinin değerlerinin yalnızca önceden belirlenmiş şekilde değil, aynı zamanda gerçek etkileşimlerde de ifade edilebileceğini gösteriyor. Böylece, etik sapmalar veya manipülasyonlar zamanla ortaya çıkabilir.