Yapay zeka kodlama asistanları, CUDA kodunu verimli bir şekilde yazabilir mi? Bu yetenekleri ölçmek ve geliştirmek amacıyla, ComputeEval adlı, CUDA programlama görevlerini değerlendirmeye yönelik sağlam ve açık kaynaklı bir benchmark oluşturduk.
Birkaç ay önce ComputeEval’in ilk sürümünü duyurmuştuk ve bugün, 100’den fazla yeni CUDA zorluğunu ekleyerek bu aracın ilk büyük genişletmesini tanıtıyoruz.
Bu yeni sürüm ile birlikte, toplamda 232 CUDA ve CUDA Compute Core Libraries (CCCL) problemi içeren bir veri setine sahibiz. Zorlayıcılığı artırmak amacıyla, modern CUDA özelliklerini kullanmayı gerektiren daha karmaşık zorlukları ekledik. Bu yeni problemler, CUDA Graphs, Streams ve Events gibi özelliklerin doğru bir şekilde düzenlenmesini test ediyor. Tüm bunlar, dinamik simülasyonlar gibi gerçek dünya uygulamaları bağlamında gerçekleşiyor.
CUDA Programlamada LLM Performansı
Ekibimiz, ComputeEval üzerinde çeşitli önde gelen dil modellerini değerlendirerek temel performans metriklerini belirledi ve yapay zeka destekli CUDA programlamanın mevcut durumunu anlamaya çalıştı (Tablo 1).
| Model | ComputeEval 2025.2 232 yeni problem pass@1 |
ComputeEval 2025.1 128 problem pass@1 |
| GPT-5 (orta) | 0.5819 | 0.61 |
| Claude Sonnet 4.0 | 0.5517 | 0.64 |
| gpt-oss-20B (yüksek) | 0.5474 | N/A |
| gpt-oss-120b (yüksek) | 0.5302 | N/A |
| Claude Opus 4.0 | 0.5216 | N/A |
| DeepSeek-R1 | 0.4397 | 0.55 |
| gpt-oss-120b (orta) | 0.4224 | N/A |
| gpt-oss-20b (orta) | 0.4224 | N/A |
| gpt-oss-120b (düşük) | 0.4052 | N/A |
| DeepSeek-V3.1 | 0.3750 | 0.44 |
| Llama 4 Maverick 17B 128E | 0.3448 | 0.47 |
| Llama 3.1 405B | 0.3405 | 0.4 |
| gpt-oss-20B (düşük) | 0.3319 | 0.41 |
Tüm modellerin puanlarının, ComputeEval 2025.2’ye geçişte düştüğünü gözlemledik. Bu durum, modellerin yeteneklerinin azaldığını göstermez; aksine, bu benchmark’un daha zorlu hale geldiğini yansıtır. Her yeni sürümle birlikte, yapay zekayı daha derin bir anlayış sergilemeye zorlayarak hızlandırılmış hesaplamanın inceliklerini gösterme konusunda yeni standartlar belirliyoruz.
Gelecek Planları ve Katılım Yolları
Veri setini ve değerlendirme çerçevesinin yeteneklerini genişletmeye devam edeceğiz. Şu anda ComputeEval’in kapsamını daha fazla CUDA-X kütüphanesine, cuBLAS, CUTLASS, cuDNN, RAPIDS ve daha fazlasını kapsayacak şekilde genişletmek için çalışmalar sürüyor. Daha geniş HPC ve AI topluluklarını katkıda bulunmaya ve iş birliği yapmaya davet ediyoruz. Kodu GitHub’da keşfedin ve veri setine Hugging Face’de erişim sağlayın.
