Prompt enjeksiyonu, düşmanların büyük dil modellerinin istenmeyen şekillerde davranmasını sağlamak için girdileri manipüle etmesi anlamına gelir ve bu, LLM uygulanabilirliğinin en erken dönemlerinden beri AI sistemlerine tehdit oluşturmuştur. Savunucular metin tabanlı saldırılara karşı modelleri güvence altına almakta ilerleme kaydederken, multimodal ve ajans sahibi AI’ya geçiş, saldırı yüzeyini hızla genişletmektedir.
Bu noktada kırmızı takım (red teaming) önemli bir rol oynar. NVIDIA AI Kırmızı Takımı, üretim düzeyindeki sistemlerde ortaya çıkan yeni tehditleri ortaya çıkarmak için proaktif olarak gerçek dünya saldırılarını simüle eder. Bu çalışma, kesin çözüm önerileri sunmaktan ziyade, özellikle üretken ve multimodal AI gibi hızla gelişen alanlarda, iş birliği gerektiren zayıflıkları vurgulamaktadır.
Bu yazıda, doğal dil kullanmayan yeni bir multimodal prompt enjeksiyonu kategorisini tanıtıyoruz. Düşmanların emoji benzeri diziler veya rebüs bulmacaları gibi sembolik görsel girdiler kullanarak ajans sahibi sistemleri tehlikeye atabildiğini ve mevcut koruma önlemlerinden kaçındığını gösteriyoruz. Bu bulgular, gelişmiş AI iş akışlarını güvence altına alırken girdi filtrelemesinden çıktı düzeyindeki savunmalara geçiş yapma gereğini vurgulamaktadır.
Geleneksel Prompt Enjeksiyonlarının Ötesinde
Multimodal modellerin ortaya çıkmasının ardından araştırmacılar, görüntüleri metne dönüştüren sistemleri hedef alan prompt enjeksiyon teknikleri ile deneyler yaptılar. Yaygın bir taktik, kötü niyetli komutları içeren görüntülerde metin gömerek sistemlerin metin işleme sürecinden manipüle edilmesiydi.
Araştırmamız, OpenAI’nin Görüntülerle Düşünme duyurusunda ilham alarak farklı bir yöne kayıyor. OpenAI’nin yeni mimarisi, görüntüleri veya sesi metne dönüştürmek yerine, her bir modülün sabitleşmiş boyutlu gömme vektörlerine dönüştürülmesiyle birleşiyor ve ardışık bir işlemde işleniyor. Ses ve görsel belirteçler, modelin temel akıl yürütme katmanlarında doğrudan işleniyor; bu, ayrı sesten metne veya görüntüden metne borularından uzaklaşarak gerçek çapraz modül akıl yürütmesi sağlıyor.
Geleneksel Multimodal Prompt Enjeksiyonu Teknikleri
Geçmişte, multimodal prompt enjeksiyon saldırıları modelin metin içeren görüntüleri işleme şeklini istismar etti. Düşmanlar, görsel unsurların (tişörtler veya tabelalar gibi) içine kötü niyetli komutlar yerleştirerek modelin bu metni yürütülebilir talimat olarak yorumlamasını sağladılar.
Örneğin, üzerindeki yazıyı “print(“Hello, World”)” şeklinde taşıyan bir tişört görüntüsü model tarafından işlendiğinde, metin çıkarılarak bir “Hello, World” programı oluşturulur.
OCR gibi kötü niyetli metin tespiti yapan koruma önlemleri giderek etkisiz hale geliyor. OpenAI’nin o-serisi, Google Gemini ve Meta Llama 4 gibi gelişmiş modeller, yerel görsel akıl yürütmeyi sağlıyor ve bu da metin tabanlı tespiti aşmayı sağlayarak savunma stratejilerinin güncellenmesini gerektiriyor.
Multimodal Model Gelişimi: Llama 4’te Erken Birleşim
Güçlü koruma önlemleri, geleneksel prompt enjeksiyonlarının başarılı olma oranını azaltırken, yeni yaklaşımımız erken birleşim mimarilerine odaklanıyor. Örneğin, Meta Llama 4, girdi aşamasında metin ve görsel belirteçleri yerel olarak entegre ediyor; bu, ortak temsiller yaratıyor ve daha doğal çapraz modül akıl yürütmesine olanak tanıyor.
Erken Birleşimin İşleyişi
- Paralel girdi işleme
- Metin işleme: Kullanıcı isteği “Bu görüntüyü tanımlayın” şeklinde belirlenir ve dizilim halinde belirteç kimliklerine dönüştürülür.
- Görüntü işleme: Görüntü ön işleme tabi tutulup (yeniden boyutlandırma, parçalama, normalleştirme) görsel kodlayıcıya geçirilir, parçalara ayrılır ve her parça gömme katmanının gömme alanına aktarılır; bu da sürekli görüntü gömmeleri oluşturur.
- Dizilim oluşturma
- Birleşik dizilim oluşturulur: Belirteçleştirilmiş metin, görüntü yer tutucu belirteçleriyle (örneğin, <|image_start|>, <|patch|>, <|image_end|>) iç içe geçirilir.
- Gömme ve birleşim
- Yer tutucular, gerçek görüntü gömmeleriyle değiştirilir; özel belirteçler ise öğrenilmiş gömmeleri korur.
- Birleşik dizilim
- Metin ve görüntü parça gömmeleri tek bir dizilimde bir araya getirilir ve aynı boyutsal alana yerleştirilir.
- Birleşik işleme
- Transformers altyapısı, tüm birleşik dizilimi işler; bu, erken katmanlardan itibaren çapraz modül dikkati ve akıl yürütmeyi sağlar.
Bu süreç, görsel ve metinsel anlamların iç içe geçtiği gerçekten multimodal bir latent alan oluşturur. Örneğin, bir görüntü parçasında “STOP” yazılı bir tabela, latent alanda “STOP” metin belirteciyle yakın bir şekilde hizalanarak modelin, modaliteler arasında akıcı bir şekilde akıl yürütmesine olanak tanır.
Erken birleşim mimarileri, Llama 4 gibi, metin ve görüntülerin aynı latent alanda uyumlu bir şekilde işlenmesine ve akıl yürütmesine imkan tanır; bu da açıkça metne dayanmayan yeni çapraz modül saldırılarına kapı açar.
Yeni Multimodal Prompt Enjeksiyonları
Erken birleşim, modellerin hem görüntüleri hem de metinleri işleyip yorumlamasına olanak tanır; bu da sembolik veya görsel girdiler aracılığıyla düzeltilme fırsatları yaratan yeni bir saldırı yüzeyi oluşturur. Örneğin, bir yazıcı, bir kişinin el salladığı ve bir küreyi temsil eden görüntüler dizisi “print hello world” ifadesini görsel olarak kodlayabilir.
Kod Enjeksiyonları
Görsel ve metin gömme alanları arasındaki anlamsal uyum, saldırganların geleneksel metin tabanlı güvenlik filtrelerini geçmesinin ve metinsiz girdilerle ajans sahibi sistemleri kontrol etmesinin yolunu açar.
“Print Hello World” Görüntü Yükü

Bir yazıcı, el sallayan bir kişi ve bir küreyi tasvir eden bir görüntü dizisi, model tarafından “print ‘Hello, world’” şeklinde yorumlanabilir. Model, açık metin talimatları olmaksızın, niyet edilen anlamı kavrayarak ilgili kodu üretmektedir.
“Uyku Zamanlayıcısı” görüntü yükü
Uyku amaçlı bir kişinin, bir nokta ve bir kronometre gösteren görüntüler dizisi “uyku zamanlayıcısı” olarak yorumlanabilir; bu, belirli bir süre için yürütmeyi duraklatma işlevini belirtmektedir.
Komut Enjeksiyonları
Görsel anlamlar ayrıca komutları yürütmek için de kullanılabilir. Örneğin, bir kedi simgesi ardından bir belge simgesiyle, Unix kedi komutunun bir dosyayı okuma talimatı olarak yorumlanabilir. Benzer şekilde, bir çöp kutusu ve belge simgesi, bir dosyayı silme komutu olarak yorumlanabilir.
“Kedi Dosyası” Görüntü Yükü
Önceki örneklerimizle aynı desen üzerinden, bu yük, terminal komutunu okuma işlevini yerine getiren bir görüntü dizisi yaratmaktadır. Görüntü dizisinde bir kedi (Unix kedi komutunu ifade eder) ve bir dosya simgesi yer alır.
“Dosyayı Sil” Görüntü Yükü
Bu örnekler, modelin görsel anlamları doğal olarak yorumladığını ve açık metin talimatları olmaksızın işlevsel kodu dönüştürebildiğini göstermektedir. Modelin akıl yürütme adımları, şu anda mevcut mimarilerin bu tür bulmacaları çözme yeteneğini nasıl sağladığını vurgular. Bu ilerleme, bu tür saldırıların uygulanabilirliğini artırmakta ve yerel multimodal saldırı yüzeyini önemli ölçüde genişletmektedir.
Sonuç
Nadir multimodal LLM’lere geçiş, AI yeteneklerinde büyük bir ilerleme sağlarken, yeni güvenlik zorluklarını da beraberinde getirmektedir. Bu modeller, metin, görüntü ve diğer modüller arasındaki paylaşım alanında akıl yürütme yapabilmekte; bu, düşmanca manipülasyonlar için yeni fırsatlar sunmaktadır. Sembolik veya görsel girdiler aracılığıyla gerçekleştirilen prompt enjeksiyonu ile geleneksel koruma önlemlerindeki kritik boşluklar ortaya çıkmaktadır.
Multimodal Prompt Enjeksiyonlarına Karşı Nasıl Savunulur:
- Uyumlu çıktı filtreleri uygulayın: Model yanıtlarını güvenlik, niyet ve aşağı akış etkisi açısından değerlendirin, özellikle bu yanıtların kod yürütme, dosya erişimi veya sistem değişikliklerini tetiklemeden önce.
- Kademeli savunmalar oluşturun: Çıktı filtrelemesini, çalışma süresi izleme, hız sınırlama ve geri alma mekanizmaları ile birleştirerek ortaya çıkan saldırıları tespit edin ve sınırlayın.
- Anlam analizini ve çapraz modül analizlerini kullanın: Statik anahtar kelime kontrollerinin ötesine geçin. Çıktının anlamını modaliteler arasında yorumlayarak rebüs tarzı veya sembolik prompt enjeksiyonlarını tespit edin.
- Savunmaları sürekli olarak ayarlayın: Kırmızı takım uygulamaları, telemetri ve geri bildirim döngüleri kullanarak modeller ve saldırı teknikleri geliştikçe koruma önlemlerini güncelleyin.
Bu darbeler, rebüs tarzı “Hello, World” programlarından görsel dosya silme yüklerine kadar teorik değildir. Bunlar, multimodal saldırı yüzeyinin özellikle ajans sahibi sistemlerde genişlediğini gösteren canlı demolar olmaktadır. Şu anda, çıktıya odaklı önlemleri önceliklendirmek, güvenli, dayanıklı ve üretim için hazır AI sistemleri inşa etmek açısından hayati öneme sahiptir. Bu ve benzeri tehditleri incelemek için NVIDIA Derin Öğrenme Enstitüsü’nde Adversarial Makine Öğrenimi eğitimine göz atabilirsiniz. Gerçek dünya kırmızı takım içgörüleri ve teknikleri hakkında daha derin bilgi için, ilgili NVIDIA Teknik Blog gönderilerini inceleyin.