NVIDIA NIM ile BALROG: Yeni Bir Oyun Tabanlı Benchmark Serisi
University College London (UCL) bünyesindeki Deciding, Acting, and Reasoning with Knowledge (DARK) Lab, yeni bir oyun tabanlı benchmark serisi olan Benchmarking Agentic LLM and VLM Reasoning On Games (BALROG) için NVIDIA NIM mikro hizmetlerinden yararlanıyor. BALROG, modellerin karmaşık ve uzun dönem etkileşimli görevlerdeki ajans yeteneklerini değerlendirmek amacıyla çeşitli oyun ortamlarında tasarlandı.
NVIDIA NIM ile Derin Öğrenme Modellerinin Kolaylaştırılması
DARK lab ekibi, kapsamlı benchmark süreçlerini basit hale getirmek için NVIDIA NIM’yi kullandı. Bu yaklaşım sayesinde, DeepSeek-R1 adı verilen ve zamanında 671 milyar parametreye sahip olan devasa bir modeli, 2025 yılının Şubatı’nda çıkan API aracılığıyla kullanabildiler. Bu sayede, modeli yerel olarak dağıtma ve barındırma ihtiyacı ortadan kalktı.
Bu yazı, NVIDIA NIM’in BALROG aracılığıyla gelişmiş AI modellerinin verimli bir şekilde benchmark edilmesine nasıl olanak sağladığını inceliyor. Ayrıca, benchmark süreci, önemli sonuçlar ve NIM mikro hizmetlerinin ajans AI akıl yürütme değerlendirmesini nasıl ilerlettiği hakkında bilgiler sunuyoruz.
NVIDIA NIM’in Sağladığı Yenilikler
NVIDIA NIM mikro hizmetleri, araştırmacıların ve geliştiricilerin AI modellerini dağıtma ve ölçeklendirme şekillerini yeniden tanımlıyor. Bu mikro hizmetler, GPU’ların gücünü kullanarak AI çıkarım iş yüklerini çalıştırmanın sürecini basit hale getiriyor. NVIDIA TensorRT ve NVIDIA TensorRT-LLM gibi önceden optimize edilmiş motorlar, düşük gecikme süreleri ve yüksek verimlilik sağlıyor.
NIM mikro hizmetlerinin en heyecan verici özelliklerinden biri, esneklikleridir. Bu hizmetler, bulut platformlarında, veri merkezlerinde veya yerel iş istasyonlarında kolaylıkla dağıtılabilir. Böylece, araştırmacılar çeşitli iş akışlarına sorunsuz bir şekilde entegre edebilirler. Kubernetes tabanlı ölçeklendirme desteği ile, araştırmacılar küçük deneylerden büyük ölçekli dağıtımlara kadar her türlü iş yükünü verimli bir şekilde yönetebilirler.
NIM mikro hizmetleri ayrıca, kullanıcıların modelleri güvenli bir şekilde kendi barındırmalarını ve belirli ihtiyaçlara göre özelleştirmelerini sağlıyor. Bu da onları doğal dil işleme, bilgisayarla görme ve bilimsel araştırmalar gibi uygulamalar için çok yönlü bir çözüm haline getiriyor. Ayrıca, ulusal süper bilgisayar merkezlerinde de dağıtılabilen NIM, araştırmacıların büyük ölçekli AI iş yükleri için yüksek performans altyapısından faydalanmalarını sağlıyor.
NIM mikro hizmetleri, standart ön uçlarla kolayca ve hızlı bir API entegrasyonu sunuyor. Bu nedenle, araştırmacılar sınırlı kaynaklarla bile büyük ölçekli modern büyük dil modellerini (LLM) etkin bir şekilde çalıştırabiliyorlar.
BALROG Metodolojisi: Oyunlarla Gerçekleştirilen Zorlu Testler
LLM’ler ve görüntü-dil modelleri (VLM), bilgi işleme ve talimatları izleme sürecinde kayda değer ilerlemeler gösterse de, karmaşık ve dinamik durumlarda etkili bir şekilde hareket etme yetenekleri hala zorlu bir meydan okuma olarak kalıyor. Uzun vadeli planlama, mekansal farkındalık ve beklenmedik durumlara uyum sağlama gerektiren görevler, sıklıkla bu modellerin mevcut yeteneklerinin sınırlarını zorlayabiliyor.
Mevcut birçok benchmark, kısa etkileşimlere veya statik problemlere odaklanarak, gerçek dünya ajansı için gerekli becerilerin yeterince yakından test edilmesini engelleyebiliyor. BALROG, AI’nın uzunca bir süre boyunca akıllıca karar verme ve etkileşimde bulunma kapasitesini gerçekten test eden daha zorlu bir değerlendirme metoduna duyulan bu ihtiyaçtan doğdu.
BALROG, altı farklı güçlendirme öğrenme ortamını bir araya getirerek ajans becerilerini çeşitli karmaşıklık seviyelerinde değerlendiren bir test alanı sunuyor:
- Crafter: Keşif, kaynak toplama ve hayatta kalmak için nesne üretme gerektiren, Minecraft ilhamlı bir 2D ortam.
- Baba Is AI: Kuralları temsil eden sözcük bloklarını manipüle ederek nesnelerin nasıl etkileşeceğini değiştiren ve bulmacaları çözen bir oyun.
- NetHack Learning Environment (NLE): Uzun vadeli stratejik planlama ve kısa vadeli taktikler gerektiren klasik l roguelike.
- MiniHack: Çeşitli görevler üzerinden keşif, navigasyon, uzun vadeli planlama ve kaynak yönetimi değerlendiren NLE temelli bir çoklu görev çerçevesi.
- BabyAI: Farklı karmaşıklıkta görevler için doğal dil talimatlarını izleyen basit bir 2D grid dünyası.
- TextWorld: Görsel bileşen içermeyen tamamen metin tabanlı bir oyun, keşif ve doğal dil etkileşimi gerektiriyor.
Modellerin gerçekten akıl yürütmesini ve uyum sağlamasını sağlamak için, ortamlardaki süreçsel üretim kullanılıyor. BALROG, bu zor görevlerdeki performansı en iyi şekilde değerlendirmek amacıyla standart bir çerçeve sunuyor. Böylece, daha yetenekli ve otonom AI ajanları geliştirilmesine yöneliyoruz.
BALROG Sonuçları: Yeni Başarılar
BALROG, modern dil modellerinin geniş bir yelpazesini benchmark etmek amacıyla bir liderlik sıralaması izliyor. Ajanlar, çevre gözlemlerini ya doğal dil açıklamaları ya da multimodal görsel-dil formatında alıyorlar ve doğal dilde bir sonraki eylemi çıkarmakla görevlendiriliyorlar. DeepSeek-R1 gibi, akıl yürütme modeli olarak özel olarak eğitilmiş modeller, eylemi çıkarmadan önce mantık yürütmelerine izin veriliyor.
BALROG, her görevde performansı 0 ile 100 arasında standart bir metrik ile değerlendiriyor. Belirli hedeflere sahip ortamlarda (BabyAI, Baba Is AI, MiniHack) puanlar ikili (başarısızlık için 0, başarı için 100) şeklindedir. Daha kıymetli ilerlemeler sağlayan ortamlarda (TextWorld, Crafter, NetHack) ise, puan, ulaşılan hedeflerin ya da aşama başarımlarının oranını temsil ediyor.
BALROG’u geliştiren araştırmacılar, DeepSeek-R1 NIM’i OpenAI API aracılığıyla değerlendirerek işlerini kolaylaştırdılar. Değerlendirmeleri, DeepSeek-R1’in BALROG’da %34,9 ± 2,1 gibi yeni bir başarı elde ettiğini gösterdi. Bu da modelin o anki sıralamada en üstte yer almasını sağladı. NIM’in standart API’lerle entegrasyonu sayesinde, DeepSeek-R1’i sorgulamak son derece kolaydı; bu, çoğu akademik araştırmacı için neredeyse imkânsız bir başarıdır.
Ayrıca, API maliyeti ile ilerleme karşılaştırması, DeepSeek R1’in diğer çeşitli modellere kıyasla çok yüksek bir performans sunduğunu ve daha düşük maliyetle çalıştığını gösteriyor.
Sonuç: NIM ile Gelişen Araştırmalar
NVIDIA NIM, modern LLM’lere ve VLM’lere erişimi ve kullanımını kolaylaştırdı. Sağlanan geniş API yelpazesi, bunların mevcut ortamlara entegrasyonunu çağrılardan kazançlı hale getiriyor. NIM mikro hizmetleri, uzaktan bulut üzerinde veya mevcut bir yerel kaynak varsa yerel olarak derhal kullanılabiliyor. Böylece DARK lab araştırma ekibi, modeli yerel olarak dağıtmadan en güncel ve büyük çaplı modern modelden hemen faydalanabiliyorlar.
BALROG metodolojisini daha ayrıntılı incelemek için BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games başlıklı ICLR 2025 makalesini okuyabilirsiniz. Ayrıca, araştırmacılar NVIDIA Llama Nemotron Ultra ve Llama 4 modellerini NIM mikro hizmetleri olarak benchmark etmeyi de planlıyorlar.
NVIDIA NIM’i, state-of-the-art AI modellerini dağıtmak, değerlendirmek ve ölçeklendirmek için kullanmaya başlamak için NVIDIA NIM for Developers adresini ziyaret edin.