NVIDIA Kolektif İletişim Kütüphanesi 2.23 ile Yeni Ölçekleme Algoritması ve Başlangıç Yöntemleri

NVIDIA Kolektif İletişim Kütüphanesi (NCCL), NVIDIA GPU’ları ve ağları için optimize edilmiş çoklu GPU ve çoklu düğüm iletişim ilkelerini uygular. NCCL, çoklu GPU derin öğrenme eğitiminde merkezi bir yazılım bileşenidir. PCI, NVLink veya ağ üzerinden tüm inter-GPU iletişimini yönetir. Gelişmiş topoloji algılama, optimize edilmiş iletişim grafikleri ve ayarlama modelleri kullanarak, NVIDIA GPU platformlarında en iyi performansı kutudan çıkar çıkmaz sunar.

Bu yazıda, NCCL 2.23 ile birlikte gelen yeni özellikler ve düzeltmeleri tartışıyoruz. Daha fazla bilgi için NVIDIA/nccl GitHub reposuna göz atabilirsiniz.

Yayın Vurguları ve Özellikleri

NVIDIA Magnum IO NCCL, inter-GPU ve çoklu düğüm iletişimini optimize etmek için tasarlanmış bir kütüphanedir. Bu, yapay zeka ve yüksek performanslı bilgi işlem (HPC) uygulamaları için verimli paralel hesaplama açısından kritik öneme sahiptir. Bu sürümün değerli kılan yenilikler şunlardır:

Yeni PAT algoritması (ReduceScatter ve AllGather için): Tüm bu işlemler için Bruck’a dayalı Paralel Toplanmış Ağaçlar (PAT) algoritmasını tanıtıyoruz; bu sayede logaritmik ölçekleme elde ediliyor.
Hızlandırılmış başlatma: Başlatma performansını iyileştirdik, ayrıca bootstrap iletişimi için bant içi ağı kullanma yeteneği ekledik.
ncclCommInitRankScalable: Büyük ölçekli başlatmayı hızlandırmak için birden fazla ncclUniqueId kullanma imkanı sunan yeni bir başlatma API’si.
İç düğüm kullanıcı tampon kaydı: Intranode işlemleri için kayıtlı kullanıcı tamponlarından yararlanma imkanı sunar.
Yeni profil eklenti API’si: NCCL performansını ölçmek için ince ayrıntılı profilleme API’si.

Aşağıdaki bölümlerde yeni özelliklerin detaylarına daha yakından bakacağız:

PAT logaritmik ölçekleme (ReduceScatter ve AllGather için)
Yeni ncclCommInitRankScalable API’si
Hızlandırılmış başlatma işlemleri
İç düğüm kullanıcı tampon kaydı
Yeni profil eklenti API’si
Hata düzeltmeleri ve küçük özellikler

PAT Logaritmik Ölçekleme için ReduceScatter ve AllGather

PAT algoritması, Bruck algoritmasının bir varyasyonudur; bu algoritma, küçük boyutlar için logaritmik sayıdaki ağ adımları sunarak, boyutlar arttıkça ağ transferlerinin sayısını artırır. Böylece tamponlama ihtiyaçlarını en azda tutar. AllGather ve ReduceScatter işlemleri için uygulanmaktadır. PAT ile küçük ve orta boyutlu mesajların daha iyi performans göstermesini bekleyebilirsiniz; bu iyileş