Son yıllarda, insanların jeneratif yapay zeka teknolojileri, özellikle büyük dil modelleri (LLM’ler) üzerinde “red teaming” (kırmızı takım oluşturma) etkinlikleri gerçekleştirmesi yaygın bir uygulama haline geldi. Bu etkinliklerin amacı, sistemlerin kabul edilebilir standartlardan sapmasını sağlamak ve güvenilir yapay zeka için önemli bir temel oluşturmaktır. Peki, LLM kırmızı takım faaliyetlerini nasıl standartlaştırabilir ve tanımlayabiliriz?
NVIDIA, Washington Üniversitesi, İnsan Uyumu İçin Yapay Zeka Merkezi ve Kopenhag IT Üniversitesi’nden araştırmacılar, LLM kırmızı takım uygulamalarını inceleyen bir çalışmaya imza attı. Çalışmanın başlığı, “Bir Şeytanı Çağırmak ve Bağlamak: LLM Kırmızı Takımlama Üzerine Temellendirilmiş Bir Teori” (PLOS One’da yayımlandı).
LLM Kırmızı Takımlamanın Tanımı
LLM kırmızı takım faaliyetleri aşağıdaki özelliklerle tanımlanabilir:
- Sınırları Keşfetme: Kırmızı takım üyeleri, sistem davranışlarının sınırlarını bulur ve bu sınırları keşfeder.
- Kasvetli Olmama: Kırmızı takım faaliyetleri zarara neden olmayı amaçlamaz; aksine, bu süreçte olumlu katkı sağlamayı hedefler.
- Manuel İnovasyon: Bu yaratıcı ve eğlenceli pratiğin otomatikleştirilmesi mümkün olsa da, insan kırmızı takım üyeleri için en faydalı olan kısımlar, insan zekasına içgörü vermeyi amaçlar.
- Takım Çalışması: Uygulayıcılar, birbirlerinin teknik ve taktiklerinden ilham alır ve bu çalışmalara saygı gösterir.
- Simyacı Düşünce Seti: Kırmızı takım üyeleri, modellerin ve davranışlarının rasyonel açıklamalarını bir kenara bırakıp, işin karmaşık ve belirsiz doğasını kabul eder.
Bu özellikler, NVIDIA’nın LLM kırmızı takım tanımına katkıda bulunur, bu tanım daha sonraki bölümlerde ele alınacaktır.
LLM’leri Kırmızı Takımlamanın Nedenleri
LLM’leri kırmızı takım adı altında değerlendirenlerin geniş bir motivasyon yelpazesi bulunmaktadır.
Bazı motivasyonlar dışsal olabilir; bu, bir işin parçası veya yasal bir gereklilik olarak ortaya çıkabilir. Sosyal sistemler de etkili olabilir; örneğin, kullanıcılar LLM açıklarını keşfetmeye çalışıyor olabilir. Diğer motivasyonlar ise içsel kaygılarla ilgilidir; birçok insan bu süreçten keyif almakta veya merak etmektedir.
NVIDIA’da, LLM’leri kırmızı takım faaliyetleri, güvenilir yapay zeka sürecimizin bir parçasıdır. Model beklentilere uymuyorsa, yayın öncesinde modeli güncellemek ve iyileştirmek için yayımlama işlemi ertelenir.
LLM Kırmızı Takımlama Stratejileri
Kırmızı takım faaliyetleri, etkileşim yoluyla hedefe ulaşmaya yönelik stratejilerin kullanılmasıyla gerçekleşir. Her strateji, farklı teknikler ile ayrıştırılabilir. Bu teknikler, yalnızca birkaç düşmanca girişi etkileyen basit teknikler olabileceği gibi, birden fazla tekniği bir araya getiren karmaşık girdiler de içerebilir.
Aşağıdaki genel red takım stratejileri tanımlanmıştır:
- Dilsel: Anlam yerine kelimelerin yüzey biçimini modüle etmek, örneğin kodlama şemaları kullanmak.
- Retorik: Argüman veya manipülasyona dayanarak hareket etmek.
- Mümkün Dünyalar: Etkileşimin bağlamını değiştirmeyi hedeflemek.
- Kurgulama: İşleyişin dayanağını kurgusal bir dünya veya koşul setine kaydırmak.
- Stratejiler: LLM ile etkileşimde bulunurken, daha yüksek bir seviyede nasıl etkileşim kurulacağını etkileyen meta-stratejilere başvurmak.
Daha fazla bilgi için, “Bir Şeytanı Çağırmak ve Bağlamak: LLM Kırmızı Takımlamanın Temellendirilmiş Teorisi” çalışmasına göz atabilirsiniz; burada on iki farklı strateji altında 35 teknik ayrıntılı olarak açıklanmaktadır.
LLM Kırmızı Takımlamanın Açığa Çıkardıkları
LLM kırmızı takım faaliyetlerinin amacı, güvenliği sayısal olarak niceliklendirmek değil, keşif yapmaktır. Yani, bir başarısızlık elde edilirse, bu başarısızlığın mümkün olduğu kabul edilir.
Red teaming’in bençmarklardan ayıran bir diğer önemli nokta, yeniliğe olan odaklanmadır.
Hem siber güvenlik hem de içerik tabanlı kırmızı takımlama açısından, olası saldırılar sonsuz bir yelpazeye sahiptir. Siber güvenlikte bu, yeni saldırı yöntemlerinin sürekli gelişmesiyle ilgilidir. İçerikte ise, etkileşim metni kullanılarak gerçekleştirildiği için, metin sonsuz şekilde yeniden düzenlenebilir ve artırılabilir.
Yeni güvenlik açıklarının keşfi için tekrar edilebilirliğin önemi yoktur. Bir modeli mevcut istemler bataryasıyla test etmek, güvenlik açısından zayıflıkları ortaya çıkarır fakat bu asıl güvenliği göstermez. Bununla birlikte, bir güvenlik bençmarkında düşük puan almak, hala zayıflıkların varlığını gösterir.
LLM Kırmızı Takımlama Sonuçlarının Kullanımı
Kırmızı takım üyeleri genellikle LLM’lerin neden olabileceği zararları araştırır. Zararın geniş bir tanım yelpazesi bulunmaktadır. Bir kırmızı takım çalışması, hedeflenen bağlama veya kullanıcı grubuna göre birçok farklı hedefe odaklanabilir.
Bazen, kırmızı takımlamanın amacı merak olabilir ve bu süreç, bireylerin organizasyonlarına veya genel olarak kamuya paylaşacakları içerik oluşturabilir. Bu, bireyin uzmanlığını ve sezgisini geliştirmeye yardımcı olurken, topluluk seviyesinde bilgi birikimini artırır.
NVIDIA’da, insan kırmızı takımlama, model yayınlama kararlarımızda kritik bir rol oynar. Yetenekli bir LLM kırmızı takımı ve bir AI kırmızı takımı, modellerimizi ve altyapımızı değerlendirerek diğer süreçlerde gözden kaçan zayıflıkları bulur. Bu, üç şekilde fayda sağlar:
- Model yayınlama kararlarımızı bilgilendirme
- Kırmızı takım alanında yüksek beceri havuzu oluşturma
- En iyi çabalarla sonuçları elde etme konusunda güven sağlama
Kırmızı takım faaliyetlerinin sonuçları, NVIDIA’nın geliştirilmiş model belgeleri formatı olan Model Kartı++’ya dahil edilir.
Otomatik olarak test edilebilecek bazı LLM güvenlik bileşenleri vardır. Bir kez keşfedilen bir istismar, diğer LLM’leri test etmek için kullanılabilir, böylece aynı hatayı tekrar yapmamış oluruz. Bu durumu, NVIDIA garak (Jeneratif AI Kırmızı Takımlama ve Değerlendirme Kiti) ile gerçekleştirmekteyiz. Geliştiriciler, hemen hemen her modele karşı güvenliklerini test edebilir ve 120 farklı güvenlik açığı kategorisine karşı duyarlılık raporu alabilirler.
Bir modelin açıklarını bilmenin yanlış ellerde risk taşıyabileceği unutulmamalıdır. Bir istismar keşfedildiğinde, en iyi hareket model sahibine ulaşmak ve zayıflığı düzeltme şansı vermektir. Bu süreç, koordineli zayıflık ifşası olarak adlandırılmaktadır ve LLM zayıflıkları için yaygın bir uygulamadır.
NVIDIA’nın LLM Kırmızı Takımlama Tanımı
NVIDIA, LLM kırmızı takımlamayı AI kırmızı takımlama örneği olarak görmektedir. Tanımımız, NVIDIA AI Kırmızı Takımı tarafından geliştirilmiş olup, hem LLM kırmızı takımlama ile ilgili bu araştırmadan hem de Association for Computational Linguistics’in NLP Güvenliği SIG’inden ilham almaktadır.
Her belirli alt alanı açık bir şekilde belirtmek önemlidir, çünkü farklı kitleler genellikle hangi biçimin kastedildiği hakkında farklı varsayımlarda bulunabilir.
LLM kırmızı takımlama: AI modellerini ve bu modelleri içeren sistemleri sistematik olarak test ederek, bu sistemlerin çalışması veya bu modellerin kullanılmasında tehdit veya risk oluşturan zayıflıkları ve davranışları belirlemektir.
Bu, iki alana ayrılabilir: güvenlik kırmızı takımlaması ve içerik bazlı kırmızı takımlama.
Güvenlik Kırmızı Takımlaması
Modelin ve modeli içeren sistemin, geleneksel güvenlik belgelerini etkileyen saldırılara karşı sağlamlığını değerlendirir; bu belgeler arasında gizlilik, bütünlük ve erişilebilirlik bulunmaktadır.
Güvenlik kırmızı takımı, bu güvenlik belgelerini ihlal etmek için adversary girdilere, model çıkarımına, eğitim veri çıkarımına veya ifşasına ve istem enjeksiyonlarına yönelik saldırıları değerlendirir.
İçerik Bazlı Kırmızı Takımlama
Modelin, adversary manipülasyon altında istenmeyen davranışları üretme kapasitesini değerlendirir; bu, model için önceden belirlenmiş davranış sözleşmelerini ihlal eden çıktılar üretiyor olabilir. Bu davranışlar arasında saldırgan, istenmeyen veya tehlikeli olan çıktıların üretilmesi; önyargılı veya ırkçı üretimler; tehlikeli veya yasadışı faaliyetlere yönelik talimat verme; ya da korunan özellikler üzerinden kararlar alma yer alabilir. Yaygın teknikler arasında çeşitli jailbreak ve koruma önlemlerine karşı aşma taktikleri bulunmaktadır.
Bu faaliyetler genellikle etik ekip, hukuk ekibi veya benzeri alan uzmanlarının desteği ile gerçekleştirilir.
LLM Güvenlik ve Güvenlik İyileştirme
NVIDIA NeMo Guardrails, AI ajanları ve diğer jeneratif AI uygulamalarında içerik güvenliği, jailbreak önleme ve daha fazlası için AI koruma önlemlerini tanımlama, düzenleme ve uygulama konusunda ölçeklenebilir bir platformdur.
NeMo Guardrails ve NVIDIA garak aracı geliştiriciler ve işletmeler için kullanılabilir hale getirilmiştir. İşletmeler, NVIDIA AI Enterprise ile yüksek kaliteli güvenlik ve emniyetten faydalanabilirler.
GTC’deki Uzmanlarla Tanışın
NVIDIA’nın yapay zeka güvenliği alanındaki bilim insanları, GTC 2025’te yer alacak. Yapay zeka yönetiminde kritik zorlukları aşma konulu bir panel tartışmasına katıldıkları etkinlikte, sorumlu yapay zeka sistemleri oluşturmanın pratik yaklaşımlarını tartışacaklar.
Siber güvenlik alanındaki AI ve güvenlik ekiplerimiz, AI ajanlarınızı güvenli bir şekilde üretime taşımanın derinlemesine anlatılacağı özel bir oturumda yer alacaklar. Ayrıca güvenilir yapay zeka sistemleri inşa etme üzerine her türlü soruya yanıt verecek uzmanlar da mevcut olacak.
Teşekkürler
LLM kırmızı takımlama üzerine çalışmalarında Nanna Inie, Jonathan Stray ve Leon Derczynski’ye teşekkür ederiz; makale PLOS One‘da yayımlanmıştır.