Not: Bu blog yazısı ilk olarak 25 Ocak 2017’de yayımlandı, ancak yeni güncellemeleri yansıtacak şekilde düzenlendi.
Bu yazı, NVIDIA’nın popüler paralel hesaplama platformu ve programlama modeli olan CUDA hakkında süper basit bir giriş niteliğindedir. 2013 yılında yazdığım daha önceki bir yazı olan CUDA’ya Kolay Bir Giriş yıllar boyunca popüler oldu. Ancak CUDA programlama daha da kolaylaştı ve GPU’lar çok daha hızlı hale geldi, bu yüzden güncellenmiş (ve daha da kolay) bir giriş yapmak zamanıdır.
CUDA C++, CUDA ile çoklu paralel uygulamalar oluşturmanın yollarından sadece birisidir. Bu, güçlü C++ programlama dilini kullanarak yüksek performanslı algoritmalar geliştirmeyi sağlar ve GPU’lar üzerinde çalışan binlerce paralel iş parçacığı ile hızlandırılmış hesaplamalar gerçekleştirmenizi mümkün kılar. Birçok geliştirici, bu şekilde derin öğrenme olarak bilinen yapay zeka devriminin temelini oluşturan uygulamaları hızlandırmıştır.
Eğer CUDA hakkında bir şeyler duydunuz ve bunu kendi uygulamalarınızda kullanmak istiyorsanız, ve eğer bir C++ programcısıysanız, bu blog yazısı iyi bir başlangıç noktası olmalıdır. Devam edebilmek için, CUDA uyumlu bir GPU’ya sahip bir bilgisayara (Windows, WSL veya 64-bit Linux, herhangi bir NVIDIA GPU yeterlidir) ya da GPU’lar sunan bir bulut instance’ına (AWS, Azure, Google Colab ve diğer bulut hizmet sağlayıcılarını kullanabilirsiniz) ihtiyacınız olacak. Ayrıca, ücretsiz CUDA Toolkit’in yüklü olduğundan emin olun.
Basit Başlayalım
Bir milyon eleman içeren iki dizinin elemanlarını toplayan basit bir C++ programı ile başlayalım.
#include <iostream>
#include <math.h>
// İki dizinin elemanlarını toplama fonksiyonu
void add(int n, float *x, float *y)
{
for (int i = 0; i < n; i++)
y[i] = x[i] + y[i];
}
int main(void)
{
int N = 1<<20; // 1M eleman
float *x = new float[N];
float *y = new float[N];
// x ve y dizilerini ana bellek üzerinde başlat
for (int i = 0; i < N; i++) {
x[i] = 1.0f;
y[i] = 2.0f;
}
// Ana bellek üzerinde 1M eleman için işlemi gerçekleştirin
add(N, x, y);
// Hataları kontrol et (tüm değerlerin 3.0f olması beklenir)
float maxError = 0.0f;
for (int i = 0; i < N; i++)
maxError = fmax(maxError, fabs(y[i]-3.0f));
std::cout << "Maksimum hata: " << maxError << std::endl;
// Belleği serbest bırak
delete [] x;
delete [] y;
return 0;
}
Öncelikle, bu C++ programını derleyin ve çalıştırın. Yukarıdaki kodu bir dosyaya yapıştırın ve add.cpp olarak kaydedin. Ardından, C++ derleyiciniz ile derleyin. Ben Linux’tayım, bu yüzden g++ kullanıyorum; ancak Windows’ta MSVC (veya WSL üzerinde g++) kullanabilirsiniz.
> g++ add.cpp -o add
Sonrasında çalıştırın:
> ./add
Maksimum hata: 0.000000
(Windows üzerinde, yürütülebilir dosyayı add.exe olarak adlandırmak ve .add ile çalıştırmak isteyebilirsiniz.)
Beklendiği gibi, toplama işlemi hata olmadan tamamlandı ve program sonlandı. Şimdi bu hesaplamayı GPU’nun çoklu çekirdeklerinde paralel olarak çalıştırmak istiyorum. Bunun ilk adımları oldukça basit.
Öncelikle, add fonksiyonumuzu GPU’nun çalıştırabileceği bir fonksiyon olan kernel haline dönüştürmem gerekiyor. Bunu yapmak için, fonksiyonun başına __global__
belirtecini eklemem yeterlidir. Bu, CUDA C++ derleyicisine bu fonksiyonun GPU’da çalışacağını ve CPU kodundan çağrılabileceğini belirtir.
// Dizilerin elemanlarını toplama kernel fonksiyonu
__global__
void add(int n, float *sum, float *x, float *y)
{
for (int i = 0; i < n; i++)
sum[i] = x[i] + y[i];
}
Bu __global__ fonksiyonu anlık bir CUDA kernel‘idir ve GPU’da çalışır. GPU üzerinde çalışan kodlara genellikle cihaz kodu, CPU üzerinde çalışan kodlara ise ana kod denir.
CUDA’da Bellek Tahsisi
GPU üzerinde hesaplama yapmak için GPU’nun erişebileceği belleği tahsis etmem gerekiyor. CUDA’da Birleşik Bellek bunu kolaylaştırıyor ve tüm sistemdeki tüm GPU’lar ve CPU’lar tarafından erişilebilen tek bir bellek alanı sağlıyor. Birleşik bellek tahsis etmek için cudaMallocManaged()
fonksiyonunu kullanmalısınız, bu da ana (CPU) kodu veya cihaz (GPU) kodu tarafından erişilebilen bir gösterici döndürür. Verileri serbest bırakmak için yalnızca cudaFree()
fonksiyonuna bu göstericiyi iletmeniz yeterlidir.
Bu yüzden önceki kodda new çağrılarını cudaMallocManaged()
çağrıları ile değiştirmem gerekiyor ve delete [] çağrılarını cudaFree()
çağrıları ile değiştireceğim.
// Birleşik Bellek Tahsisi – CPU veya GPU'dan erişilebilir
float *x, *y, *sum;
cudaMallocManaged(&x, N*sizeof(float));
cudaMallocManaged(&y, N*sizeof(float));
...
// Belleği serbest bırak
cudaFree(x);
cudaFree(y);
Son olarak, add() kernel’ını başlatmalıyım ki bu da onu GPU’da çalıştırır. CUDA kernel başlatmaları, üçlü açı parantez sözdizimi <<< >>> ile belirtilir. Tek yapmam gereken bu ifadeyi add
çağrısının önüne eklemek.
add<<<1, 1>>>(N, sum, x, y);
Kolay! Üzerinde hangi açılı parantezlerin bulunduğunun içeriği hakkında yakında daha fazla bilgi vereceğim; şu anda yapmanız gereken tek şey, bu satırın add() fonksiyonunu çalıştırmak için bir GPU iş parçacığı başlattığıdır.
Bir şey daha var: Ana kodun, kernel tamamlanmadan sonuçlara erişmeden önce beklemesi gerekiyor (çünkü CUDA kernel başlatmaları, çağrılan CPU iş parçacığını engellemez). Bunu yapmak için, sonuçları kontrol etmeden önce cudaDeviceSynchronize()
çağrısını ekliyorum.
İşte tam kod:
#include <iostream>
#include <math.h>
// Dizilerin elemanlarını toplama kernel fonksiyonu
__global__
void add(int n, float *x, float *y)
{
for (int i = 0; i < n; i++)
y[i] = x[i] + y[i];
}
int main(void)
{
int N = 1<<20;
float *x, *y;
// Birleşik Bellek Tahsisi – CPU veya GPU'dan erişilebilir
cudaMallocManaged(&x, N*sizeof(float));
cudaMallocManaged(&y, N*sizeof(float));
// x ve y dizilerini ana bellek üzerinde başlat
for (int i = 0; i < N; i++) {
x[i] = 1.0f;
y[i] = 2.0f;
}
// GPU üzerinde 1M eleman için kernel'ı çalıştır
add<<<1, 1>>>(N, x, y);
// Ana kodun GPU'nun tamamlanmasını beklemesi için
cudaDeviceSynchronize();
// Hataları kontrol et (tüm değerlerin 3.0f olması beklenir)
float maxError = 0.0f;
for (int i = 0; i < N; i++) {
maxError = fmax(maxError, fabs(y[i]-3.0f));
}
std::cout << "Maksimum hata: " << maxError << std::endl;
// Belleği serbest bırak
cudaFree(x);
cudaFree(y);
return 0;
}
CUDA dosyaları .cu
uzantısına sahiptir. Yani bu kodu add.cu adlı bir dosyaya kaydedin ve nvcc
, CUDA C++ derleyicisi ile derleyin.
> nvcc add.cu -o add_cuda
> ./add_cuda
Maksimum hata: 0.000000
Bu sadece ilk adımdır çünkü bu haliyle, bu kernel yalnızca bir iş parçacığı için doğrudur; çünkü çalıştıran her bir iş parçacığı tüm dizi üzerindeki toplamayı gerçekleştirecektir. Ayrıca, birden fazla paralel iş parçacığının aynı yerleri okuyup yazması nedeniyle bir yarış durumu da vardır.
Not: Windows üzerinde Microsoft Visual Studio’daki Proje Ayarlarında Platform’u x64 olduğundan emin olmanız gerekir.
Profilini Al!
Kernel’in ne kadar sürdüğünü öğrenmenin iyi bir yolu, onu NSight Systems CLI aracı olan nsys ile çalıştırmaktır. Ancak, yalnızca kernelin çalışma süresini öğrenmek istediğimiz için komut satırında nsys profile -t cuda --stats=true ./add_cuda
yazmak yeterlidir. Ancak bu, ayrıntılı istatistikler üretir. Bu yazıda yalnızca istediğimiz çıktıyı üreten bir nsys_easy adında bir sarmalayıcı betik yazdım. Betik GitHub’da bulunmaktadır. Sadece nsys_easy‘yı indirin ve PATH’ınıza (veya mevcut dizine) bir yere koyun.
> nsys_easy ./add_cuda
Maksimum hata: 0
'/tmp/nsys-report-bb25.qdstrm' oluşturuluyor
[1/1] [========================100%] nsys_easy.nsys-rep
Oluşturuldu:
/home/nfs/mharris/src/even_easier/nsys_easy.nsys-rep
SQLite dosyası nsys_easy.sqlite oluşturuluyor ve işleniyor...
** CUDA GPU Özeti (Kernels/MemOps) (cuda_gpu_sum):
Zaman (%) Toplam Zaman (ns) Sayı Kategori İşlem
-------- --------------- ----- ----------- --------------------------
98.5 75,403,544 1 CUDA_KERNEL add(int, float *, float *)
1.0 768,480 48 MEMORY_OPER [memcpy Unified H2D]
0.5 352,787 24 MEMORY_OPER [memcpy Unified D2D]
CUDA GPU Özeti tablosu, add işlevine yapılan tek bir çağrıyı gösteriyor. Bu işlem, bir NVIDIA T4 GPU üzerinde yaklaşık 75ms sürüyor. Şimdi paralellik ile bunu daha hızlı hale getirelim.
İş Parçacıklarını Al!
Artık bir kernel ile hesaplama yaptıklarına göre, bu işlemi paralel hale getirmenin yollarını keşfedelim. Anahtar, CUDA’nın <<<1, 1>>> sözdizimindedir. Bu, yürütme konfigürasyonu olarak adlandırılır ve CUDA çalışma zamanına GPU üzerinde kaç paralel iş parçacığı kullanılacağını söyler. Buradaki iki parametre vardır, ancak öncelikle ikinciyi değiştirelim: bloktaki iş parçacığı sayısını. CUDA GPU’ları kernel’ları, boyutları 32 katlarının bir katı olan iş parçacığı blokları kullanarak çalıştırır; 256 iş parçacığı seçmek makul bir boyut olacaktır.
add<<<1, 256>>>(N, x, y);
Eğer sadece bu değişiklikle kodu çalıştırırsam, hesaplamayı her bir iş parçacığı için bir kez yapar ve paralel iş parçacıklarına yaymak yerine tüm işlemi tek bir iş parçacığı gerçekleştirmiş olur. Bunu düzgün bir şekilde yapmak için, kernel’i değiştirmem gerekiyor. CUDA C++’ta, çalışan iş parçacıklarının dizinlerini almak için anahtar kelimeler vardır. threadIdx.x
, mevcut iş parçacığının kendi bloğundaki indeksini içerir ve blockDim.x
ise bloğun içindeki iş parçacığı sayısını içerir. Döngüyü, paralel iş parçacıkları ile diziyi taramak için değiştireceğim.
__global__
void add(int n, float *x, float *y)
{
int index = threadIdx.x;
int stride = blockDim.x;
for (int i = index; i < n; i += stride)
y[i] = x[i] + y[i];
}
add işlevi çok fazla değişmedi. Aslında, index
‘i 0 yapmak ve stride
‘ı 1 yapmak, onu anlam bakımından ilk versiyona eşdeğer yapıyor.
Dosyayı add_block.cu olarak kaydedin ve nvprof
ile derleyip çalıştırın. Yazının geri kalanında yalnızca çıktının ilgili satırını göstereceğim.
Zaman (%) Zaman (ns) Sayı Kategori İşlem
-------- --------- ----- ----------- --------------------------
79.0 4,221,011 1 CUDA_KERNEL add(int, float *, float *)
Bu büyük bir hızlanma (75ms’den 4ms’ye), ama şaşırtıcı değil çünkü yürütme bir iş parçacığından 256 iş parçacığına geçti. Devam edip daha fazla performans elde edelim.
Blokların Dışına Çıkalım
CUDA GPU’ları, Streaming Multiprocessor veya SM olarak gruplandırılan birçok paralel işleyiciye sahiptir. Her SM, birden fazla eşzamanlı iş parçacığı bloğu çalıştırabilir; ancak her iş parçacığı bloğu tek bir SM üzerinde çalışır. Örneğin, bir NVIDIA T4 GPU’su, Turing GPU Mimarisi’na dayanmaktadır ve 40 SM ve 2560 CUDA çekirdeğine sahiptir; ve her SM, en fazla 1024 aktif iş parçacığını destekleyebilir. Tüm bu iş parçacıklarını tam olarak kullanmak için, kernel’i birden fazla iş parçacığı bloğu ile başlatmalıyım.
Artık tahmin ettiğiniz üzere, yürütme konfigürasyonunda ilk parametre blok sayısını belirtir. Paralel iş parçacıkları grupları, grid olarak adlandırılır. İşleyeceğim N elemanı var ve 256 iş parçacığı kullanacak olduğum için bloğun sayısını hesaplayarak en az N iş parçacığı elde etmeliyim. Yalnızca N’yi blockSize
ile bölerim (N’nin blockSize
’a bölünmediği durumda yukarıyu yuvarladığıma dikkat ederek).
int blockSize = 256;
int numBlocks = (N + blockSize - 1) / blockSize;
add<<<numBlocks, blockSize>>>(N, x, y);
Ayrıca kernel kodunu, iş parçacığı bloklarının tamamını hesaba katacak şekilde güncellemeli olduğum. CUDA, gridDim.x
‘i sağlıyor; bu, grid’deki blok sayısını içerir ve blockIdx.x
ise grid’deki mevcut iş parçacığı bloğunun indeksini içerir. Şekil 1, CUDA kernel’larında dizinin (tek boyutlu) dizinlemesini blockDim.x
, gridDim.x
ve threadIdx.x
kullanarak çizimle gösterir. Fikir, her bir iş parçacığın indeksini, kendi bloğunun başındaki offset’i (blok indeksinin blok boyutu ile çarpılması: blockIdx.x * blockDim.x
) ve iş parçacığının bloğundaki indeksini (threadIdx.x
) toplamak. blockIdx.x * blockDim.x + threadIdx.x
kodu, CUDA’ya özgü bir ifadedir.
__global__
void add(int n, float *x, float *y)
{
int index = blockIdx.x * blockDim.x + threadIdx.x;
int stride = blockDim.x * gridDim.x;
for (int i = index; i < n; i += stride)
y[i] = x[i] + y[i];
}
Güncellenen kernel, stride
değerini grid’deki toplam iş parçacığı sayısı olarak da belirler (blockDim.x * gridDim.x
). Bu tür bir kernel döngüsü CUDA’da sıkça grid-stride döngüsü olarak adlandırılır.
Dosyayı add_grid.cu olarak kaydedin ve nvprof
ile derleyip çalıştırın.
Zaman (%) Zaman (ns) Sayı Kategori İşlem
-------- --------- ----- ----------- ----------------------------
79.6 4,514,384 1 CUDA_KERNEL add(int, float *, float *)
İlginçtir ki, bu değişiklikten bir hız artışı sağlamadık; muhtemelen hafif bir yavaşlama bile olmuş olabilir. Neden? Eğer hesaplamayı 40 kat (SM sayısı) artıramıyorsak, toplam süreyi düşürmeyen neden bu. Çünkü hesaplama, dar boğaz değil.
Birleşik Bellek Ön Bellek Alma
Profil oluşturucudan gelen bu darboğaz hakkında bir ipucu var:
Zaman (%) Zaman (ns) Sayı Kategori İşlem
-------- --------- ------ ----------- --------------------------
79.6 4,514,384 1 CUDA_KERNEL add(int, float *, float *)
14.2 807,245 64 MEMORY_OPER [CUDA memcpy Unified H2D]
6.2 353,201 24 MEMORY_OPER [CUDA memcpy Unified D2H]
Burada, 64 ana bellekten cihaza (H2D) ve 24 cihazdan ana belleğe (D2H) “birleşik” memcpy
işlemlerinin olduğunu görebiliriz. Ancak, kodda hiçbir memcpy
çağrısı yok. CUDA’da Birleşik Bellek sanal bellek olarak çalışır. Bireysel sanal bellek sayfaları, sistemdeki herhangi bir cihazin (GPU veya CPU) belleğinde bulunabilmektedir ve bu sayfalar talep üzerine taşınmaktadır. Bu program önce CPU üzerinde dizileri bir döngü ile başlatır ve daha sonra kernel başlatıldığında diziler GPU tarafından okunur ve yazılır. Fakat bellekteki sayfa hatalarının çoğu CPU’da bulunduğundan, birden fazla sayfa hatası oluşur ve GPU belleğindeki sayfalar bu hataların meydana geldiği zamanlarda taşınır. Bu durum, bir bellek darboğazına neden olur, bu nedenle hız artışı görmüyoruz.
Taşımalar, maliyetlidir çünkü sayfa hataları tekil olarak gerçekleşir ve GPU iş parçacıkları, sayfa taşınmasını beklerken duraklatılır. Kernel’in şeylerine ihtiyaç duyduğumdan, x ve y dizilerinin bellekte olmasını sağlamak için ön belleğe alma kullanabilirim. Bunu, kernel’i başlatmadan önce cudaMemPrefetchAsync()
fonksiyonunu kullanarak yapacağım:
// x ve y dizilerini GPU'ya ön belleğe al
cudaMemPrefetchAsync(x, N*sizeof(float), 0, 0);
cudaMemPrefetchAsync(y, N*sizeof(float), 0, 0);
Bunu profilde çalıştırdığımda, kernel süresi artık 50 mikro saniyenin altında!
Zaman (%) Zaman (ns) Sayı Kategori İşlem
-------- --------- ----- ----------- --------------------------
63.2 690,043 4 MEMORY_OPER [CUDA memcpy Unified H2D]
32.4 353,647 24 MEMORY_OPER [CUDA memcpy Unified D2H]
4.4 47,520 1 CUDA_KERNEL add(int, float *, float *)
Sonuçları Toplamak
Dizilerin tüm sayfalarını aynı anda ön belleğe almak, bireysel sayfa hatalarından çok daha hızlıdır. Bu değişikliği, tüm sürümlere ekleyip tekrar profilleyelim. İşte bir özet tablosu.
Sürüm | Zaman | Tek İş Parçasına Göre Hız Artışı | Bant Genişliği |
Tek İş Parçası | 91,811,206 ns | 1x | 137 MB/s |
Tek Blok (256 iş parçacığı) | 2,049,034 ns | 45x | 6 GB/s |
Birden Fazla Blok | 47,520 ns | 1932x | 265 GB/s |
Bir kez veriler bellekte olduğunda, tek bir bloktan birden fazla bloğa geçmenin hız artışı, GPU üzerindeki SM sayısına orantılıdır (40).
Görüldüğü üzere, GPU’lar çok yüksek bant genişliğine ulaşabilir. Add kernel’i çok bant genişliği sınırlıdır (265 GB/s, T4’ün 320GB/s’lik zirve bant genişliğinin %80’inden fazladır); ancak GPU’lar yoğun hesaplama gerektiren hesaplamalarda da mükemmeldir. Örneğin, yoğun matris lineer cebir işlemleri, derin öğrenme, görüntü ve sinyal işleme, fiziksel simülasyonlar gibi.
Uygulamalar
Devam etmenizi sağlamak için kendi başınıza denemeniz gereken bazı şeyler burada.
- CUDA Toolkit dokümantasyonunu inceleyin. Eğer hala CUDA kurmadıysanız, Hızlı Başlangıç Rehberi ve kurulum kılavuzlarına göz atın. Ardından Programlama Kılavuzu ve En İyi Uygulamalar Kılavuzu‘nu inceleyin. Her mimari için ayar rehberleri de mevcuttur.
- Kernel içinde
printf()
ile denemeler yapın.threadIdx.x
veblockIdx.x
değerlerini bazı veya tüm iş parçacıkları için yazdırarak kontrol edin. Acaba sıralı bir şekilde mi yazdırdınız? Neden böyle oldu? threadIdx.y
veyathreadIdx.z
(veyablockIdx.y
) değerlerini yazdırın. (Aynı şekildeblockDim
vegridDim
için de). Neden bu işlevler var? Bu değerleri 0’dan (1) farklı değerlere nasıl alabilirsiniz?
İleride Ne Olacak?
Umarım bu yazı, CUDA hakkında merakınızı uyandırmıştır ve CUDA C++ kullanarak kendi hesaplamalarınızı yapma isteğiyle dolmuşsunuzdur. Sorularınız veya yorumlarınız varsa, lütfen aşağıdaki yorum bölümünü kullanarak benimle iletişime geçin.
Devam edebileceğiniz bir dizi eski tanıtım yazısı var:
- CUDA C++ ile Performans Ölçümleri Uygulama
- Aygıt Özelliklerini Sorgulamak ve Hataları Yönetmek
- CUDA C++ ile Veri Aktarımlarını Optimize Etme
- CUDA C++ ile Veri Aktarımlarını Üst Üste Getirme
- CUDA C++ ile Global Belleğe Etkili Erişim
- CUDA C++ ile Paylaşımlı Belleği Kullanma
- CUDA C++ ile Verimli Matris Transpoz
- CUDA C++ ile Sonlu Fark Yöntemleri, Bölüm 1
- CUDA C++ ile Sonlu Fark Yöntemleri, Bölüm 2
- CUDA ile Bir Hafta Sonunda Hızlandırılmış Işın İzleme
Bunun dışında CUDA Fortran ile paralel bir seri oluşturan yazılar da mevcut; bunlara, CUDA Fortran’a Kolay Bir Giriş ile başlayarak inceleyebilirsiniz.
CUDA C++ ve diğer GPU hesaplama konuları hakkında daha fazla içerik bulmak için NVIDIA Geliştirici Blogu’nda göz atmanızı öneririm!
Bu yazıyı beğendiyseniz ve daha fazlasını öğrenmek istiyorsanız, NVIDIA DLI birkaç derinlemesine CUDA programlama kursu sunmaktadır.
- Yeni başlayanlar için,Modern CUDA C++ ile Hızlandırılmış Hesaplamaya Giriş sunulmaktadır. Bu kurs, özel GPU kaynakları, daha sofistike bir programlama ortamı, NVIDIA Nsight Systems görsel profillerini kullanma, düzinelerce etkileşimli egzersiz, ayrıntılı sunumlar, 8 saatten fazla içerik ve DLI Yeterlilik Sertifikası kazanma imkanı sunmaktadır.
- Python programcıları için,CUDA Python ile Hızlandırılmış Hesaplamanın Temelleri mevcuttur.
- Daha ileri düzey bazı CUDA programlama materyalleri için, NVIDIA DLI’nin Hızlandırılmış Hesaplama bölümüne göz atabilirsiniz, özgür olarak sunulan hazırlık kılavuzlarına ulaşabilirsiniz.