CUDA Toolkit 12.8 sürümü, veri bilimleri, yapay zeka, bilimsel hesaplamalar ve bilgisayar grafikleri alanlarındaki hızlandırılmış hesaplama performansını artırmaya devam ediyor. Bu yazıda, bu sürümle birlikte sunulan bazı yeni özellikler ve geliştirmeler öne çıkıyor:
- NVIDIA Blackwell mimarisi desteği
- CUDA Graphs koşullu düğüm geliştirmeleri
- Blackwell CUTLASS çekirdekleri, büyük dil modelleri (LLM’ler) için
- NVIDIA Nsight Geliştirici Araçları güncellemeleri
- Matematik kütüphaneleri güncellemeleri
cudaStreamGetDevice
- Derleyici güncellemeleri
- Hızlandırılmış Python güncellemeleri
- Tam özellikli mimariler
NVIDIA Blackwell Mimarisi Desteği
CUDA Toolkit 12.8, NVIDIA Blackwell mimarisini, performans araçları, profiller, kütüphaneler ve derleyiciler dahil olmak üzere Geliştirici Araçlar suite’inin tamamında destekleyen ilk sürümdür. 208 milyar transistörle inşa edilen Blackwell, NVIDIA Hopper GPU’larının 2,5 katından fazla transistör barındıran en büyük GPU’dur.
Blackwell’ın sunduğu başlıca yetenekler şunlardır:
- İkinci nesil Transformer Engine: Özel Tensör Çekirdek teknolojisi ile LLM’lerin ve uzman karışım (MoE) modellerinin eğitim ve çıkarımını hızlandırır.
- Veri sıkıştırma: LZ4, Snappy ve Deflate gibi en yeni sıkıştırma formatlarını kullanarak veri analitiği ve bilimsel veriler üzerindeki performansı artırır.
- Ağ interkonekti: NVLink ve NVLink Switches, trilyon parametreli ve çok trilyon parametreli AI modellerinin GPU’lar arası iletişim performansını artırır.
CUDA Grafikleri ve Koşullu Düğüm Geliştirmeleri
CUDA Graphs API’leri, GPU işlemleri dizilerini tekrar tekrar çalıştırmak için en verimli yol olmaya devam ediyor. CUDA Toolkit 12.8, CUDA Graphs’a yeni koşullu düğüm türleri ekliyor ve bu sayede performans ve esneklik artıyor.
Örneğin, bir algoritma belirli bir eşik değerin altına inene kadar bir dizi işlemi yineleyebilir. Bu durumda, işlem tamamen GPU üzerinde gerçekleşiyor ve CPU kontrol yönetimi gereksiz hale geliyor, dolayısıyla işlem yükü %50 oranında azaltılıyor. CUDA Toolkit 12.8, koşullu grafik düğümleri için runtime kontrolünü geliştiren API’ler ekliyor.
Blackwell CUTLASS Çekirdekleri
CUTLASS, 2017 yılından bu yana NVIDIA GPU’larında yüksek performanslı CUDA çekirdekleri geliştiren araştırmacılara ve geliştiricilere yardımcı olmuştur. CUTLASS 3.8 sürümü ile birlikte, Blackwell mimarisini destekleyerek geliştiricilerin yeni nesil Tensör Çekirdeklerini kullanmalarını sağlıyor.
Bu sürüm, yeni dar hassasiyet MX formatları ve NVIDIA tarafından geliştirilen FP4 formatı ile birlikte, hesaplama verimliliğini artırıyor. Blackwell’de CUTLASS, Tensör Çekirdek işlemleri için %98’e kadar beklenen zirve performansı sunabiliyor.
DeepSeek-V3 ve DeepSeek-R1 için, gruplaştırılmış GEMM’ler, çıkarım sırasında gereken MoE hesaplamalarının büyük bir kısmını oluşturuyor. CUTLASS ile Blackwell üzerinde FP4 kullanarak, Gruplandırılmış GEMM performansı FP16 kullanan H200 üzerinde %500 oranında bir artış sağlıyor.
NVIDIA Nsight Geliştirici Araçları
NVIDIA Nsight Compute 2025.1, Blackwell mimarisi desteği olan ilk resmi sürümdür. Bu güncelleme, hafıza grafiğinde Blackwell Donanım Tensör Belleğini ve Tensör Çekirdek performans verilerini görselleştirme imkânı sunar. Ayrıca, kullanıcıların profilleme aralıkları içindeki kaynak düzeyinde metrikleri toplamasına olanak tanıyan, giderek popülerleşen aralık profilleme özelliğinde de iyileştirmeler yapılmıştır.
Compute Sanitizer ise, Python uygulamaları üzerinden başlatılan çekirdek hatası sorunlarını doğru bir şekilde tespit etmek için Python çağrı yığınlarını desteklemeye başlamıştır. Bu özellik, programları derlerken -g-tmem-access-check
PTXAS bayrağını ekleyerek aktivasyonunu sağlıyor.
Matematik Kütüphaneleri Güncellemeleri
CUDA Toolkit 12.8 ile, Blackwell mimarisinin yeni özelliklerini kullanan birkaç kütüphane geliştirmesi yapılmıştır. Bu güncellemeler, AI, veri bilimleri, grafik ve simülasyon ile yüksek performanslı bilimsel hesaplamalarda uygulamaları hızlandırmaya yardımcı olur.
cuBLAS artık 4-bit ve 8-bit kayan nokta karma hassasiyetli tensör çekirdeği destekleyen matris çarpımı için API’lerini genişletmiştir. cuSOLVER ise, pivotlama olmaksızın karmaşık simetrik direkt çözümler sunan zsytrf/zsytrs desteği getirmiştir.
Ayrıca, nvJPEG artık Tegra mimarisi için destek sağlıyor, NPP ise DRIVE Thor mimarisi desteği sunuyor.
Yeni Derleyici Güncellemeleri ve Hızlandırılmış Python
CUDA Toolkit 12.8, GCC 14 desteği ile birlikte geliyor. Bunun yanı sıra, varsayılan yüksek seviyeli optimizasyon otomatik olarak LLVM 18 tabanlıdır. Ayrıca, nvdisasm
, JSON formatında SASS disassemblies oluşturmayı destekliyor.
Python kullanıcıları için iki beta sürümü, cuda.core
adında yeni bir nesne modelinin prototipini ve CUDA bağlamalarını cuda.bindings
alt modülüne taşımıştır. CuPy ekibi de Blackwell yamanalarına sahip yeni bir sürümü genel kullanılabilirlik için yayınlıyor.
Tam Özellikli Mimariler
CUDA Toolkit 12.8 ile Maxwell, Pascal ve Volta mimarileri artık tam özellikli olarak kabul edilmektedir. Bu durum gelecekteki sürümlerde bu mimarilere yeni özelliklerin eklenmeyeceği anlamına geliyor.
Önümüzdeki sürümlerde, mevcut yazılım yığınları ve uygulamalar bu mimarilerde çalışmaya devam edecek, ancak yeni CUDA Toolkit fonksiyonları desteklenmeyecek. Geliştiriciler, nvcc
, nvrtc
ve nvjitlink
komutlarını kullanırken bu mimariler için bir uyarı mesajı alacaklardır.
Sonuç Olarak
CUDA Toolkit 12.8 sürümü, NVIDIA Blackwell mimarisine tam özellik desteği sunar. Bu sürüm, en yeni NVIDIA GPU’ları, hızlandırılmış kütüphaneleri, derleyicileri ve Geliştirici Araçlar için geliştirilmiş destek olmaya devam etmektedir.
Daha fazla bilgi için CUDA dokümantasyonuna, en son NVIDIA Derin Öğrenme Enstitüsü (DLI) eğitim olanaklarına göz atabilir ve NGC kataloğuna göz atabilirsiniz. Sorularınızı sormak ve sohbet katılmak için CUDA Geliştirici Forumları‘na katılabilirsiniz.
Bu yazının yazılmasında katkıda bulunan NVIDIA üyelerine teşekkürler: Stephen Jones, Jackson Marusarz, Becca Zandstein, Andy Terrel, Ashraf Eassa, Matt Nicely ve Mridula Prakash.