“ComputeEval: LLM’leri CUDA Üzerinde Değerlendirmek İçin Açık Kaynaklı Bir Çerçeve”

Büyük dil modelleri (LLM’ler) geliştiricilerin kod yazma şekillerini ve öğrenme süreçlerini devrim niteliğinde değiştiriyor. Tecrübeli veya yeni başlayan tüm yazılımcılar için, günümüzün en gelişmiş modelleri Python betikleri, React tabanlı web siteleri ve daha fazlasını üretebiliyor. Gelecekte, güçlü yapay zeka modellerinin geliştiricilere yüksek performanslı GPU kodu yazma aşamasında yardımcı olması bekleniyor. Bu bağlamda önemli bir soru ortaya çıkıyor: Bir LLM’nin CUDA programlama ihtimallerini ne şekilde değerlendirebiliriz?

ComputeEval, LLM’leri CUDA kodu üretme yetenekleri açısından değerlendirmek üzere tasarlanmış açık kaynak bir çerçeve ve veri setidir. Bu veri seti, LLM’nin paralel programlama alanlarında, bellek yönetimi ve iş parçacığı senkronizasyonu gibi konulardaki doğru CUDA kodunu üretme kabiliyetini değerlendirir. Çerçeve, üretilen kodun değerlendirilmesini basit hale getirmek için tasarlanmıştır.

Bu yazıda, ComputeEval’ın bir değerlendirme çerçevesi olarak nasıl çalıştığına, modern modeller üzerindeki değerlendirme sonuçlarına ve bu sonuçların yapay zeka destekli GPU geliştimi için ne anlama geldiğine dair bir bakış sunulacaktır.

Yüksek Performanslı GPU Kod Üretimi İçin Yeni Bir Kılavuz

ComputeEval, CUDA ve yüksek performanslı GPU kodu için güvenilir, topluluk merkezli bir kılavuz sunmayı hedefliyor. Diğer dillerdeki benchmark’lardan, örneğin HumanEval ile ilham alınarak geliştirilmiştir. CUDA’da doğruluk, paralellik ve performans kritik öneme sahiptir.

ComputeEval, aşağıdaki bileşenlerden oluşmaktadır:

Gerçek Dünya CUDA Problemleri: Ekip, kernel başlatmaları, iş parçacığı yönetimi, bellek düzenlemeleri ve paylaşılan bellek kullanılabilirliği gibi konuları kapsayan bir dizi zorluğu titizlikle oluşturmuştur. İlk sürümde 128 CUDA problemi mevcut olup, LLM’lerin GPU programlama zorluklarıyla başa çıkma kapasitesini değerlendirmeye zemin hazırlamaktadır.
Fonksiyonel Doğruluk Testleri: Kod, sandbox ortamında fonksiyonel doğruluk testlerini çalıştırırken sağlanmaktadır. Böylece üretilen kod güvenli bir şekilde çalıştırılabilir ve istenilen şekilde çalışıp çalışmadığı doğrulanabilir.

Kodları görmek için nvidia/compute-eval GitHub reposunu ziyaret edebilirsiniz. Veri setini ise Hugging Face‘de bulabilirsiniz.

Model Performansı

Ekibimiz, ComputeEval üzerinde çeşitli önde gelen LLM’leri değerlendirerek temel performans metriklerini belirlemek ve yapay zeka destekli CUDA programlamanın mevcut durumunu anlamak için çalışmalar yaptı (Tablo 1).

Model	pass@1	pass@3
OpenAI o3-mini	0.61	0.74
Anthropic Claude Sonnet 3.7	0.54	0.60
Llama 3.1 405b	0.40	0.55
Google Gemini 2.0 Flash Thinking	0.37	0.52

Tablo 1. ComputeEval 2025.1 sonuçları, OpenAI o3-mini CUDA kodu üretiminde en güçlü performansı sergileyerek Anthropic’in Claude Sonnet 3.7’yi takip ediyor (düşünmeden mod)

Bu sonuçlar, LLM’lerin bazı temel durumlarda geçerli CUDA kodu üretebildiğini gösterirken, en iyi modellerin bile karmaşık sorunlar için doğru CUDA kodu üretme konusunda hala bazı zorluklar yaşadığını ortaya koyuyor. Bu durum, bu karmaşık alanda geliştirme için daha fazla alan olduğunu gösteriyor.

Başlayın

ComputeEval, yalnızca mevcut modellerin performansını ölçmekle kalmıyor, aynı zamanda yapay zeka destekli CUDA programlamada sürekli gelişimi teşvik edici bir standart belirliyor. Ekibimiz, LLM’lerin yüksek performanslı hesaplamada ne derece ilerleyebileceğini zorlamak istiyor. Açık kaynak bir platform olan ComputeEval, güvenilir bir kaynak sunarak topluluğun bunu geliştirmesine olanak tanıyor. CUDA-X kütüphanelerindeki ve GPU mimarilerindeki uzman konuları kapsayan zorluklar sunarak, en iyi uygulamaların kullanılmasını otomatik hale getiriyor.

İlk sürümde 128 titizlikle tasarlanmış CUDA zorluğu bulunmaktadır. Ancak duracak değiliz. Şu an farklı ekiplerimiz ve ortaklarımızla birlikte daha fazla sorun toplamak için çalışmalar yapmaktayız. Gelecek güncellemelerde, yalnızca doğruluğu değil, aynı zamanda performans ölçümünü de kapsayan daha ayrıntılı metrikler içeren geliştirilmiş testler yer alacaktır.

Tecrübeli HPC uzmanları, öğrenciler ve amatörler, ek modeller üzerinde benchmarkları çalıştırmaya, yeni CUDA ve CUDA kütüphane problemleri göndermeye ve GitHub İhtiyaçları bölümünde genel geri bildirimde bulunmaya davet edilmektedir. Geri bildirimleriniz ve katkılarınız, bu benchmark’ın gelişmesine yardımcı olacak ve hızlandırılmış hesaplamayı herkes için daha iyi hale getirecektir. Kodları görmek için nvidia/compute-eval GitHub reposunu ziyaret edin. Veri setini ise Hugging Face‘de bulabilirsiniz.