Microsoft, AI ajanlarını test etmek için sahte bir pazar oluşturdu; beklenmedik hatalarla karşılaştı.

Microsoft’tan Yeni AI Simülasyon Ortamı

Çarşamba günü, Microsoft’taki araştırmacılar, yapay zeka (AI) ajanlarını test etmek için yeni bir simülasyon ortamı yayımladı. Bu ortamla birlikte yayımlanan araştırma, mevcut ajanik modellerin manipülasyona karşı hassas olabileceğini gösteriyor. Arizona Eyalet Üniversitesi ile iş birliği içinde gerçekleştirilen bu araştırma, AI ajanlarının denetimsiz çalıştığında nasıl performans göstereceği ve AI şirketlerinin ajanik bir gelecek vaadini ne kadar hızlı gerçekleştirebileceği konusunda yeni sorular ortaya koyuyor.

Magentic Marketplace: Açık Kaynak Simülasyon

Microsoft’un adını verdiği “Magentic Marketplace” adlı simülasyon ortamı, AI ajan davranışlarını deneyimlemek için sentetik bir platform olarak inşa edilmiştir. Örneğin, bir deneyde bir müşteri ajanı, kullanıcının talimatlarına göre akşam yemeği siparişi vermeye çalışırken, çeşitli restoranları temsil eden ajanlar siparişi kazanmak için rekabet eder.

Deneylerin Sonuçları ve Bulunan Zayıflıklar

Ekibin ilk deneyleri, 100 ayrı müşteri tarafı ajanının 300 iş tarafı ajanı ile etkileşimde bulunduğu bir ortamda gerçekleştirildi. Marketplace’in kaynak kodunun açık kaynak olması, diğer grupların bu kodu benimseyerek yeni deneyler gerçekleştirmesini veya bulguları yeniden üretmesini kolaylaştıracaktır.

Microsoft Araştırma AI Sınırları Laboratuvarı’nın yönetici direktörü Ece Kamar, bu tür araştırmaların AI ajanlarının yeteneklerini anlamak açısından kritik olduğunu belirtmektedir. “Bu ajanların birbiriyle iş birliği yapması ve iletişim kurması dünyayı nasıl değiştirecek?” diye soruyor Kamar. “Bu şeyleri derinlemesine anlamak istiyoruz.”

İlk araştırmalar, GPT-4o, GPT-5 ve Gemini-2.5-Flash gibi önde gelen modellerin bir karışımını inceledi ve bazı şaşırtıcı zayıflıklar buldu. Özellikle, araştırmacılar, işletmelerin müşteri ajanlarını ürün satın almaya manipüle etmenin çeşitli tekniklerini keşfetti. Müşteri ajanına daha fazla seçenek verildiğinde, ajanların dikkat alanının aşırı yüklenmesi nedeniyle verimlilikte belirgin bir düşüş gözlemlendi.

Müşteri Ajanları Üzerindeki Zorluklar

“Bu ajanların birçok seçeneği işleme noktasında bize yardımcı olmasını istiyoruz,” diyor Kamar. “Ve mevcut modellerin, çok fazla seçenek ile karşılaştıklarında gerçekten aşırı yüklendiğini görüyoruz.”

Ajanlar, ortak bir hedefe ulaşmaya çalışırken de zorluklarla karşılaştılar; iş birliği yapacakları ajanların hangi rolü üstleneceğinden emin olamadılar. Ancak, modellere iş birliği yapmaları için daha belirgin talimatlar verildiğinde performanslarının arttığı görüldü. Yine de, araştırmacılar bu modellerin temel yeteneklerinde geliştirmeye ihtiyaç olduğunu vurguladılar.

“Modelleri talimatlandırabiliyoruz – yani onlara adım adım söyleyebiliyoruz,” diyor Kamar. “Ama eğer bu modellerin iş birliği yapabilme yeteneklerini test ediyorsak, bu yeteneklerin doğal olarak mevcut olmasını beklerim.”

Exit mobile version