Yapay zeka (YZ) ölçeklendirmesi son derece karmaşık bir süreçtir ve eğitimi ile çıkarımda kullanılan yeni teknikler, veri merkezlerinden daha fazla performans talep etmektedir. Veri merkezi yetenekleri hızla büyürken, altyapı ise temel fiziksel sınırlamalara tabidir. Güç dağıtımı, soğutma kapasitesi ve alan kısıtlamaları, bir YZ fabrikasının fiziksel ayak izini belirlemektedir. Büyümeye devam edebilmek için yeni veri merkezleri kurulur ve bu kaynakların bir arada çalışabilmesi için uzaktaki bağlantılar kritik hale gelir.
Veri merkezlerini uzun mesafeli Ethernet ile birbirine bağlarken, “standart” ticari silikon kullanımıyla ana amaç, verinin hedefine ulaşmasını sağlamaktı. Ancak uzun mesafeler ve yüksek gecikmeler nedeniyle sıkışma olasılığı oldukça yüksektir ve bunun etkileri de çok yıkıcı olabilir.
Bu zorluğu azaltmak ve veri paketlerinin kaybını önlemek amacıyla, standart Ethernet tedarikçileri, büyük veri trafiği patlamalarını emebilen derin paket tamponları kullanan çözümler geliştirmiştir. Ancak bu derin tampon anahtarları YZ için bazı sorunlar ortaya çıkarmaktadır.
Özellikle, derin tamponlu anahtarlar, doğal olarak daha yüksek gecikmelere sahip olma eğilimindedir. Tampon dolmaya başladığında ise, “boşaltma” süreci başlar. YZ çalışma yükleri açısından bu durum öngörülemez olup yüksek miktarda gecikme veya veri akışındaki dalgalanmalara neden olur; bu da senkronize olan eğitim ve dağıtılmış çıkarım performansını olumsuz etkiler.
Bu yazıda, NVIDIA Spectrum-XGS Ethernet teknolojisinin veri merkezi bağlantısı için sağladığı yüksek performansı nasıl mümkün kıldığını açıklıyoruz.
Scale-across Networking Nedir?
Scale-across networking, YZ hesaplama bağlantıları için yeni bir kategoridir ve mevcut ölçekleme seçeneklerinin (ölçekleme içi ve dışı) yanında düşünülmesi gereken yeni bir boyut olarak ele alınabilir. Spectrum-XGS Ethernet ile, farklı boyutlarda ve mesafelerdeki birden fazla veri merkezi, tek bir büyük YZ fabrikası gibi bir araya getirilebilir. İlk kez, ağ, coğrafi olarak ayrılmış veri merkezleri arasında büyük ölçekli YZ eğitimi ve çıkarımı için gereken performansı sağlayabilir.
NVIDIA Spectrum-XGS Ethernet Nasıl Çalışır?
NVIDIA Spectrum-XGS Ethernet, NVIDIA Spectrum-X Ethernet platformuna yeni bir teknoloji eklemesidir. Spectrum-X Ethernet anahtarları ve ConnectX-8 SuperNIC’ler temelinde inşa edilmiştir ve veri merkezlerindeki ölçek dışı bağlantı için kullanılan yazılım ve kütüphane yığını ile aynı altyapıyı kullanır.
Spectrum-XGS Ethernet ile bağlantı, YZ fabrikaları arasında uzun mesafelerde (500 metreden fazla) gerçekleştirilir. Bu, kampüs içindeki binalar arasında, şehirler veya hatta ülkeler arasında yapılan bağlantıları içerir. Ölçekleme kapsamındaki bağlantıyı mümkün kılmak için, yüksek etkili bant genişliği ve performans izolasyonu sağlamak için kullanılan algoritmalar evrilmiştir.
Mesafe Bilinci Algoritmaların Katkıları
Uzun mesafelerde veri taşımak, gecikmenin artması gibi bazı zorlukları beraberinde getirir; bu, optik fiber içinde bile olsa geçerlidir. Verinin fiber cam üzerinde yayılması, her bir metrede 5 nanosaniye hızında gerçekleşir. Bu da, 1 kilometre mesafenin 5 mikrosaniye sürdüğü anlamına gelir. Bu süreler, mutlak anlamda küçük görünebilir, ancak GPU’lar arası iletişim için her mikrosaniye önemlidir.
Spectrum-XGS Ethernet, iletim gecikmesini azaltacak şekilde optimize edilmiş telemetri tabanlı sıkışıklık kontrolü ve uyarlanabilir yönlendirme algoritmalarına sahiptir. Bağlantı başlatıldığında, ağ, iki cihazın hem merkez içinde hem de dışında olup olmadığını kaydeder. Bu durum, yük dengelemesi için en iyi yaklaşımın bilinmesini sağlar.
Spectrum-XGS Ethernet teknolojisinin sağladığı bazı önemli yararlar şunlardır:
- Bütünleşik ve tek tip ağ mimarisi: Hem Spectrum-X Ethernet ölçek dışı hem de Spectrum-XGS Ethernet ölçekleme çaprazı aynı donanıma, yazılıma ve kütüphanelere dayanır. Bu, üst düzey iş yükü yönetimi ve ağ operasyonları için birleşik bir yaklaşım sağlar.
- Uçtan uca, telemetri tabanlı sıkışıklık kontrolü: Birleşik mimari, küresel ağ görünürlüğüne olanak tanır. Veri merkezinin içindeki ve dışındaki ağdan alınan kapsamlı telemetri verileri, derin tampon anahtarları olmadan yönetilebilir.
- Akıllı ve otomatik yük dengelemesi: Spectrum-X Ethernet YZ fabrikası, mesafe bilincine sahip ve NVIDIA Collective Communications Library (NCCL)-bilinçlidir, böylece ağ trafiği desenlerine uyum sağlar.
- Ölçeklenen iş yükleri için düşük gecikme: Spectrum-XGS Ethernet, öngörülebilir sonuçlar elde etmek üzere düzenlenmiştir. Bu, uzun mesafelerde veri akışlarını hesaba katarak ek gecikme cezalarını en aza indirir.
- Esnek ölçekleme kapasitesi: Aynı donanım, hem ölçek dışı hem de ölçek içinde kullanıldığından, ağ kaynakları veri merkezi içi veya dışı trafiği desteklemek üzere yeniden tahsis edilebilir.
NVIDIA Spectrum-XGS Ethernet’in Performans Faydaları
NVIDIA Spectrum-XGS Ethernet’in ölçeklenen performans üzerindeki etkisini göstermek için, NVIDIA mühendisleri NCCL primitive’lerini 10 km uzaklıkta birden fazla lokasyonda test etmiş ve sonuçları standart Ethernet ile karşılaştırmıştır. Elde edilen sonuçlar, Şekil 2’de gösterildiği gibi oldukça dikkat çekicidir:
NVIDIA Spectrum-XGS Ethernet, standart Ethernet’e kıyasla NCCL all-reduce bant genişliğini %90 oranında artırmaktadır. Bu hız artışı, özellikle YZ eğitim yükleri için en yaygın olan büyük mesaj boyutlarında görülmektedir. Bu iyileştirmeler, YZ uygulamaları için daha hızlı iş tamamlama sürelerine dönüşmektedir.
Scale-across Networking ROI’yi Nasıl Artırır?
NVIDIA Spectrum-XGS Ethernet, YZ altyapısının esnekliğini artırır. Veri merkezlerinin her mesafede performans kaybı yaşamadan iletişim kurmasına olanak tanıyarak, ölçek dışı ve ölçek içi ağlar arasında ortak bir mimari yaratır. Spectrum-XGS Ethernet ile inşa edilen Ethernet veri merkezleri, hangi mesafede olurlarsa olsunlar bir araya getirilebilir.
Spectrum-XGS ile inşa edilen Ethernet veri merkezleri, konum farkı gözetmeksizin tek bir sistem gibi çalışabilir. Bu durum, kritik YZ altyapısının kaynaklarını bir araya getirerek, ileri düzey YZ iş yükleri için sürekli olarak değer sunar.
NVIDIA Spectrum-X Ethernet’in arkasındaki teknik yenilikleri öğrenmek için NVIDIA Spectrum-X Ağ Platformu Mimarisine göz atabilirsiniz.