Günün en son geliÅmelerine ve sektördeki yapay zeka konusundaki özel içeriklere ulaÅmak için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi
ChatGPTânin piyasaya sürülmesinin üzerinden iki yıl geçti ve Åimdi birçok büyük dil modeli (LLM) mevcut. Ancak, bu modellerin çoÄu, kötü içerikleri üretmeye zorlamak amacıyla yapılan belirli jailbreak giriÅimleri için hâlâ savunmasız durumda.
Model geliÅtiricileri, bu tür saldırılara karÅı etkili bir savunma geliÅtirmeyi baÅaramadı ve gerçekte bunun %100 baÅarılabileceÄi konusunda temkinli. Ancak, bu hedefleri doÄrultusunda çalıÅmalarını sürdürüyorlar.
Yeni Sistem ile Jailbreakâlere KarÅı SavaÅ
Bu baÄlamda, OpenAI rakibiAnthropic, Claude ailesinin en son üyesi olan Claude 3.5 Sonnet için âanayasa sınıflandırıcılarıâ adını verdiÄi yeni bir sistem tanıttı. Bu sistem, jailbreak giriÅimlerinin âbüyük çoÄunluÄunuâ engellediÄini iddia ediyor. En önemlisi de, bu süreçte yanlıŠuyarıların sayısını en aza indiriyor ve yüksek iÅlem gücü gerektirmiyor.
Red Teaming TopluluÄuna ÃaÄrı
Anthropic Güvenlik AraÅtırma Ekibi, yeni savunma mekanizmasını kırmak için âevrensel jailbreakâ çabalarıyla red teaming topluluÄuna meydan okudu. AraÅtırmacılar, bu jailbreakâlerin modelleri tüm savunmalarından tamamen arındırabileceÄine dikkat çekiyor. Ãok dikkat çekici bir örnek, âÅimdi Her Åeyi Yapâ ve âTanrı Moduâ gibi yöntemler, çünkü bunlar, uzman olmayan kullanıcıların uygulayamayacakları karmaÅık bilimsel süreçleri gerçekleÅtirmelerine olanak tanıyabilir.
Jailbreak BaÅarı Oranı %4,4
Constitutional AI teknikleri, AI sistemlerini insan deÄerleri ile uyumlu hale getirmek amacıyla belirli ilkelere dayanmaktadır. Bu yaklaÅım, hangi eylemlerin onaylandıÄını ve hangilerinin yasaklandıÄını tanımlar (örneÄin, hardal tarifleri kabul edilirken, hardal gazı tarifleri yasaktır).
Yeni savunma yöntemini oluÅturmak için, Anthropic araÅtırmacıları 10.000 jailbreak isteÄi üretti. Bu istekler farklı dillere ve yazım tarzlarına çevrildi. AraÅtırmacılar, kötü içerik ile zararsız içerikleri ayırt edebilen sınıflandırıcılar eÄitmek amacıyla bu verileri kullandılar.
Ä°lk testlerde, korunmasız modelle jailbreak oranı %86 iken, anayasa sınıflandırıcıları ile donatılmıŠClaude 3.5 modeli, bu oranın %4,4âe düÅmesini saÄladı; yani model, jailbreak giriÅimlerinin %95âinden fazlasını reddetti.
Yasaklı Sorgulamalar Ãzerine Testler
Bunun yanı sıra, Anthropic ekibi baÄımsız jailbreak yapanları 10 âyasaklıâ sorgulamanın bulunduÄu bir hata avı programına davet etti. Ä°ki aylık dönemde toplamda 185 katılımcı, $15,000 ödül için çaba harcayarak yaklaÅık 3.000 saat boyunca Claude 3.5 Sonnetâi jailbreak etmeye çalıÅtı. Ancak, hiç kimse bu 10 yasaklı sorgulayı tek bir jailbreak ile yanıtlatmayı baÅaramadı.
Red team üyeleri, modeli yanıltmak için çeÅitli teknikler kullandı ve bu süreçte âmasum görünümlüâ yeniden ifade etme ve uzunluk istismarını tercih ettiler. Ancak, evrensel jailbreak yöntemleri gibi karmaÅık saldırılar, baÅarılı olanlar arasında yer almadı.
Sonuç olarak, Constitutional Classifiers her zaman evrensel jailbreakâleri engelleyemeyebilir. Ancak, araÅtırmacılar, bu sınıflandırıcıların kullanımının, jailbreak giriÅimlerinin saptanmasını zorlaÅtırdıÄını ve daha fazla çaba gerektirdiÄini düÅünüyorlar.