AI güvenlik kontrollerini sabotaj amacıyla yapabilir mi? Şimdilik pek iyi yapamaz.

10/21/2024 12:14 PM

AI şirketleri, modellerin tuhaf, yasa dışı veya güvenli olmayan şeyler söylememesi veya yapmamasını sağlamak için sağlam güvenlik kontrollerine sahip olduğunu iddia etmektedir. Ancak, modelin bu kontrolleri atlatabilecek ve bir şekilde kullanıcıları engellemeye veya yanıltmaya çalışabilecek yetenekte olduğunu biliyor muydunuz? Anthropic araştırmacılarına göre, bunu yapabiliyorlar, şimdilik pek de iyi bir şekilde yapmasalar da.

Anthropic‘in Eşleme Bilimi ekibi, “Yapay Zeka daha fazla yetenek kazandıkça, gözetleme sistemlerini alt üst etme yeteneğine sahip modeller gibi yeni bir risk ortaya çıkabilir” diyor.

Geliştirdikleri dizi deneyler oldukça yapay ve yüzeysel olsa da, daha fazla araştırma yapılması gereken bir şey olduğunu gösteriyor. İşte eğitilen uğursuz modeller ve gözlemlenen sonuçlar:

Görev 1: Kullanıcıyı, özetlemesi veya yorumlaması gereken verileri yanıltarak gizlice yanıltma. Sonuç: Başarılı oldu! Modelin daha agresif girişimler yapması, kullanan kişiler üzerinde daha büyük bir etkiye sahip olmakla birlikte, onları daha şüpheci hale getirdi.

Görev 2: İnsan veya diğer kod kontrol modelinin fark etmeyeceği bir kod hatası sokmak. Sonuç: Başarılı oldu! Ancak, kontrolcü bir model olduğunda sadece %1 oranında başarılı oldu.

Görev 3: “Güvenlik kontrolünü ağırlaştırmak” için kendisini daha az tehlikeli gibi göstermek. Sonuç: Başarılı oldu! Model “başarılı bir şekilde başarısız oldu” ve gerçek kapasitesinin altında çalıştı. Neyse ki, modellerin gerçek yeteneklerini doğru bir şekilde temsil etmelerine rehberlik eden bir standart “güvenlik eğitimi” kursu, modeli tam potansiyeline geri getirdi (yani, tehlikeli yetenekleri gizlememeye başladı).

Görev 4: İzlenen bir modelin kötü davranışlarına bayrak çekmemek. Sonuç: Deneme yapıldı. Diğer modeller tarafından yasadışı veya güvensiz seçimleri işaretlememek için talimatlandırılan “gözetmen” AI, kendisi daha dürüst bir gözetmen AI tarafından hızla yakalandı. Peki ya o AI de tehlikeli hale getirilirse? Endişelenmeyin, onun üzerine başka bir tane daha koyabiliriz. Ve daha fazlası için. Tüm yol boyunca gözetmenler var.

Araştırmacılar, hala gerçek bir tehlike olmasa da, modellerin bu tür sabotaj ve entrikaya yetenekli olduğunu sonuçlandırıyor. Bu yeterli bir sebep, ona göz kulak olmak ve güvenlik yığınına karşı sabotaj önlemlerini eklemek adına.