“ComputeEval 2025.2 ile AI Tarafından Üretilen CUDA Kodlarının LLM’ler Üzerinde Benchmarking’i”

Yapay zeka kodlama asistanları, CUDA kodunu verimli bir şekilde yazabilir mi? Bu yetenekleri ölçmek ve geliştirmek amacıyla, ComputeEval adlı, CUDA programlama görevlerini değerlendirmeye yönelik sağlam ve açık kaynaklı bir benchmark oluşturduk.

Birkaç ay önce ComputeEval’in ilk sürümünü duyurmuştuk ve bugün, 100’den fazla yeni CUDA zorluğunu ekleyerek bu aracın ilk büyük genişletmesini tanıtıyoruz.

Bu yeni sürüm ile birlikte, toplamda 232 CUDA ve CUDA Compute Core Libraries (CCCL) problemi içeren bir veri setine sahibiz. Zorlayıcılığı artırmak amacıyla, modern CUDA özelliklerini kullanmayı gerektiren daha karmaşık zorlukları ekledik. Bu yeni problemler, CUDA Graphs, Streams ve Events gibi özelliklerin doğru bir şekilde düzenlenmesini test ediyor. Tüm bunlar, dinamik simülasyonlar gibi gerçek dünya uygulamaları bağlamında gerçekleşiyor.

CUDA Programlamada LLM Performansı

Ekibimiz, ComputeEval üzerinde çeşitli önde gelen dil modellerini değerlendirerek temel performans metriklerini belirledi ve yapay zeka destekli CUDA programlamanın mevcut durumunu anlamaya çalıştı (Tablo 1).

Model ComputeEval 2025.2
232 yeni problem
pass@1
ComputeEval 2025.1
128 problem
pass@1
GPT-5 (orta) 0.5819 0.61
Claude Sonnet 4.0 0.5517 0.64
gpt-oss-20B (yüksek) 0.5474 N/A
gpt-oss-120b (yüksek) 0.5302 N/A
Claude Opus 4.0 0.5216 N/A
DeepSeek-R1 0.4397 0.55
gpt-oss-120b (orta) 0.4224 N/A
gpt-oss-20b (orta) 0.4224 N/A
gpt-oss-120b (düşük) 0.4052 N/A
DeepSeek-V3.1 0.3750 0.44
Llama 4 Maverick 17B 128E 0.3448 0.47
Llama 3.1 405B 0.3405 0.4
gpt-oss-20B (düşük) 0.3319 0.41
Tablo 1. ComputeEval 2025.1 ve 2025.2 üzerinde en son nesil LLM’lerin pass@1 doğruluğu. Son sürüm, AI destekli kodlama için daha zorlu bir benchmark sunarak 232 yeni CUDA programlama zorluğu ekledi.

Tüm modellerin puanlarının, ComputeEval 2025.2’ye geçişte düştüğünü gözlemledik. Bu durum, modellerin yeteneklerinin azaldığını göstermez; aksine, bu benchmark’un daha zorlu hale geldiğini yansıtır. Her yeni sürümle birlikte, yapay zekayı daha derin bir anlayış sergilemeye zorlayarak hızlandırılmış hesaplamanın inceliklerini gösterme konusunda yeni standartlar belirliyoruz.

Gelecek Planları ve Katılım Yolları

Veri setini ve değerlendirme çerçevesinin yeteneklerini genişletmeye devam edeceğiz. Şu anda ComputeEval’in kapsamını daha fazla CUDA-X kütüphanesine, cuBLAS, CUTLASS, cuDNN, RAPIDS ve daha fazlasını kapsayacak şekilde genişletmek için çalışmalar sürüyor. Daha geniş HPC ve AI topluluklarını katkıda bulunmaya ve iş birliği yapmaya davet ediyoruz. Kodu GitHub’da keşfedin ve veri setine Hugging Face’de erişim sağlayın.

Kaynak

Nvdia Blog

Exit mobile version