Anthropic’in yeni AI güvenlik yöntemi, jailbreak’lerin %95’ini engelliyor

Günün en son gelişmelerine ve sektördeki yapay zeka konusundaki özel içeriklere ulaşmak için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi

ChatGPT’nin piyasaya sürülmesinin üzerinden iki yıl geçti ve şimdi birçok büyük dil modeli (LLM) mevcut. Ancak, bu modellerin çoğu, kötü içerikleri üretmeye zorlamak amacıyla yapılan belirli jailbreak girişimleri için hâlâ savunmasız durumda.

Model geliştiricileri, bu tür saldırılara karşı etkili bir savunma geliştirmeyi başaramadı ve gerçekte bunun %100 başarılabileceği konusunda temkinli. Ancak, bu hedefleri doğrultusunda çalışmalarını sürdürüyorlar.

Yeni Sistem ile Jailbreak’lere Karşı Savaş

Bu bağlamda, OpenAI rakibiAnthropic, Claude ailesinin en son üyesi olan Claude 3.5 Sonnet için “anayasa sınıflandırıcıları” adını verdiği yeni bir sistem tanıttı. Bu sistem, jailbreak girişimlerinin “büyük çoğunluğunu” engellediğini iddia ediyor. En önemlisi de, bu süreçte yanlış uyarıların sayısını en aza indiriyor ve yüksek işlem gücü gerektirmiyor.

Red Teaming Topluluğuna Çağrı

Anthropic Güvenlik Araştırma Ekibi, yeni savunma mekanizmasını kırmak için “evrensel jailbreak” çabalarıyla red teaming topluluğuna meydan okudu. Araştırmacılar, bu jailbreak’lerin modelleri tüm savunmalarından tamamen arındırabileceğine dikkat çekiyor. Çok dikkat çekici bir örnek, “Şimdi Her Şeyi Yap” ve “Tanrı Modu” gibi yöntemler, çünkü bunlar, uzman olmayan kullanıcıların uygulayamayacakları karmaşık bilimsel süreçleri gerçekleştirmelerine olanak tanıyabilir.

Jailbreak Başarı Oranı %4,4

Constitutional AI teknikleri, AI sistemlerini insan değerleri ile uyumlu hale getirmek amacıyla belirli ilkelere dayanmaktadır. Bu yaklaşım, hangi eylemlerin onaylandığını ve hangilerinin yasaklandığını tanımlar (örneğin, hardal tarifleri kabul edilirken, hardal gazı tarifleri yasaktır).

Yeni savunma yöntemini oluşturmak için, Anthropic araştırmacıları 10.000 jailbreak isteği üretti. Bu istekler farklı dillere ve yazım tarzlarına çevrildi. Araştırmacılar, kötü içerik ile zararsız içerikleri ayırt edebilen sınıflandırıcılar eğitmek amacıyla bu verileri kullandılar.

İlk testlerde, korunmasız modelle jailbreak oranı %86 iken, anayasa sınıflandırıcıları ile donatılmış Claude 3.5 modeli, bu oranın %4,4’e düşmesini sağladı; yani model, jailbreak girişimlerinin %95’inden fazlasını reddetti.

Yasaklı Sorgulamalar Üzerine Testler

Bunun yanı sıra, Anthropic ekibi bağımsız jailbreak yapanları 10 “yasaklı” sorgulamanın bulunduğu bir hata avı programına davet etti. İki aylık dönemde toplamda 185 katılımcı, $15,000 ödül için çaba harcayarak yaklaşık 3.000 saat boyunca Claude 3.5 Sonnet’i jailbreak etmeye çalıştı. Ancak, hiç kimse bu 10 yasaklı sorgulayı tek bir jailbreak ile yanıtlatmayı başaramadı.

Red team üyeleri, modeli yanıltmak için çeşitli teknikler kullandı ve bu süreçte “masum görünümlü” yeniden ifade etme ve uzunluk istismarını tercih ettiler. Ancak, evrensel jailbreak yöntemleri gibi karmaşık saldırılar, başarılı olanlar arasında yer almadı.

Sonuç olarak, Constitutional Classifiers her zaman evrensel jailbreak’leri engelleyemeyebilir. Ancak, araştırmacılar, bu sınıflandırıcıların kullanımının, jailbreak girişimlerinin saptanmasını zorlaştırdığını ve daha fazla çaba gerektirdiğini düşünüyorlar.