Yüksek performanslı bilgisayar sistemleri ve derin öğrenme iş yükleri, gecikmeye son derece hassastır. Paket kaybı, iletişim hattında yeniden iletim gerektirir veya duraksamalar yaşatır; bu durum doğrudan gecikmeyi artırır ve GPU’lar arasındaki senkronizasyonu bozar. Bu, tüm GPU’ların katılımının gerekli olduğu kolektif işlemler gibi işlemlerin performansının düşmesine yol açabilir.
Bu yazının odak noktası, NVIDIA’nın Ethernet tabanlı Doğu-Batı AI hattı çözümü olan Spectrum-X‘tir. Bu yazıda AI ağlarının dayanıklılığını, bağlantı kesintileri ve bağlantı dalgalanmalarının AI iş yükleri üzerindeki sonuçlarını ve NVIDIA Kolektif İletişim Kütüphanesi (NCCL) perspektifinden ele alıyorum.
Packet Drop Hassasiyeti
NCCL, genellikle lossless RDMA-yetkili ağlar (Infiniband, NVLink veya Ethernet tabanlı Spectrum-X gibi) üzerinden çalışan yüksek hızlı ve düşük gecikmeli ortamlar için tasarlanmıştır. Ağ olayları NCCL’nin performansını önemli ölçüde etkileyebilir:
- Gecikme ve dalgalanma: NCCL’nin kolektif işlemleri, GPU’lar arasında sıkı bir senkronizasyona dayanır. Yüksek gecikme veya dalgalanma, bu zamanlamayı bozarak genel verimliliği ve AI iş yükü performansını azaltabilir.
- Paket kaybı ve zaman aşımına uğrama: NCCL genellikle güvenilir (kaybı önleyen) bir taşıma katmanı varsayar ve ağır hata kurtarma mekanizmaları uygulamaz. Paket kaybı veya zaman aşımı, iletişim hatalarına, kötüleşen performansa veya NCCL işlemlerinde kesintilere yol açabilir.
Optimal performans için NCCL, minimal gecikme, dalgalanma ve paket kaybına sahip ağlar üzerinde çalışmalıdır.
Paket kaybı ve zaman aşımından bahsettiğimde, tüm ağın kayıpsız olduğunu varsayıyorum. Spectrum-X, mükemmel bir tıkanıklık kontrol mekanizması sunar (SPCX-CC), bu nedenle paketten kaybın tek kaynağı bağlantı kesintileri ve bağlantı dalgalanması olaylarıdır.
Bağlantı kesintileri ve dalgalanmaları genellikle veri düzlemi ve kontrol düzlemi fonksiyonlarının dışında kalan dışsal faktörlerden kaynaklanır. Bunlar, toz gibi çevresel koşullar, fiber sorunları veya optik bileşenlerin aşırı sıcaklık veya ortalama arızalanma süresi (MTBF) nedeniyle meydana gelen arızaları içerebilir.
Spectrum-X’ın tıkanıklık kontrolü sayesinde, kayıpsız bir ağda kuyruklama ve tıkanıklık nedeniyle oluşan paket düşmelerinden kaçınabilirsiniz. Ancak, bir arayüz kapandığında veya daha da kötüsü, dalgalandığında paket kaybını önleyemezsiniz. Bu tür kayıpların AI iş yükleri ve NCCL kolektif işlemleri üzerindeki etkileri oldukça ciddidir.
NCCL, neredeyse mükemmel ve güvenilir veri iletimi varsayımlarına dayanan özel iletişim protokolleri kullanır. TCP gibi sağlam hata düzeltme veya yeniden iletim stratejileri kullanan protokollardan farklı olarak, NCCL tasarımı yüksek performansı sürdürebilmek için minimal paket kaybı bekler. Kayıp olan küçük paket sayıları dahi gecikmelere neden olabilir, çünkü sistem hata kurtarma beklemeli ve bu da genel verimliliği ve LLM eğitim süresini azaltabilir.
NCCL ayrıca bant genişliği kullanımını en üst düzeye çıkarmak için streaming aggregations ve pipeline iletişimi sıkça kullanır. Paket kaybı, bu akıcı veri akışını kesintiye uğratır. Bir paket kaybolduğunda, tüm hattın yeniden işleme mekanizmaları devreye girmeden beklemesi gerekebilir; bu durum, tüplerin faydalarını azaltarak etkili geçiş hızında önemli düşüşlere sebep olur.
NCCL, genellikle düşük paket kaybı oranlarına sahip yüksek performanslı veri merkezi ağları (NVLink, InfiniBand ve Ethernet bazlı Spectrum-X gibi) üzerinden konuşlandırılır.
Bu, iletişim prosedürlerinin basitleştirilmesiyle, minimal hata kontrolü ve kurtarma aşamasını içerir.
Bu, paket kaybı neredeyse sıfırken harika işler; ancak eğer bir paket düşerse, hızlı bir düzeltme için birçok yerleşik yedekleme yoktur. Geleneksel Ethernet ağları gibi daha yüksek paket kaybına sahip ağlarda veya bağlantı dalgalanmalarının kaçınılmaz olduğu bir ortamda kullanıldığında sistem beklenmedik yeniden iletimlerle karşılaşabilir; bu durum da NCCL tasarımında beklenmeyen performans düşüşlerine yol açar.
Özetle, NCCL’nin paket kaybına hassasiyeti, sıkı bağlı, düşük gecikmeli iletişim protokollerine ve optimize edilmiş veri akış stratejilerine olan bağımlılığından gelmektedir. Küçük paket kayıpları dahi senkronizasyonu bozabilir, yeniden iletimler gerektirebilir ve önemli performans düşüşlerine yol açabilmektedir; bu nedenle güvenilir ve kaliteli ağ koşulları, NCCL yüksek performansını sağlamak için kritik öneme sahiptir.
AI Veri Merkezi Ağına Daha Fazla Dayanıklılık
Kaçınılmaz bir paket kaybı durumu, örneğin bağlantı kesintisi veya dalgalanması yaşandığında, ağın toparlanma süresinin minimum seviyeye indirilmesi ve ağın tutarlı ve belirlenebilir bir biçimde toparlanabilmesi gerektiği açıktır. Bu, NCCL ve AI iş yükleri açısından hayati önem taşımaktadır; çünkü eğitim süresini ve NCCL’nin her bir arıza durumu karşısındaki davranışını etkiler.
Modern AI veri merkezi ağı tasarımında, dayanıklılık ve toparlanma sağlamak için güçlü ve ölçeklenebilir BGP‘ye ve onun yeteneklerine dayanırız. Bağlantı kesintileri, yapı değişiklikleri yaratır ve tüm ağın en iyi yolları yeniden hesaplamasına, eşit maliyetli çoklu yol yönlendirmesi (ECMP) gruplarını yeniden dengeleyip güncellemesine ve ağırlıklı ECMP bilgisini güncelleyip yaymasına neden olur.
Öte yandan, BGP’nin arka planda çalışması, talepkar AI ağlarının hızlı toparlanma hedeflerini zorlaştıran durumlar yaratabilir.
GPU küme boyutu büyüdükçe, daha fazla GPU ile birlikte BGP RIB ve yönlendirme tabloları da büyümektedir. Küme içindeki GPU sayısı ile yönlendirme tablosunun boyutu arasında birebir bir ilişki vardır.
BGP’nin başlangıçta tasarlandığı şekilde, her ön ek için en iyi yolu yeniden hesaplamak zorundadır ve bu bilgi tüm ağda yayılması gerekir. Bu nedenle, sahip olduğunuz küme boyutu ne kadar büyükse, BGP toparlanma süresi o kadar yavaş olur. Ağırlıklı ECMP verisi daha yavaş yayılır. NCCL’nin bir kesinti yaşadığı süre artar. Sonuç olarak, LLM eğitim işleri daha uzun sürer ve belirli bir zaman diliminde tamamlanamaz.
Bu nedenle, BGP Prefix Independent Convergence (PIC) gibi mekanizmalara ihtiyaç vardır ve bu, AI ağınız için en iyi toparlanma süresini sağlamak için kullanılabilir. BGP PIC’nin faydaları, hedefe birden fazla yolun varlığına dayanır ve bu yollar ECMP ya da önceden hesaplanmış yedek yollar şeklinde olabilir.
BGP PIC’e Giriş
Varsayılan BGP toparlanması ön ek bağımlıdır; BGP, doğası gereği her yönü günceller ve işlerken bireysel ön ek bazında hareket eder.
İşte bu durumun nedenine dair derin bir bakış:
- Ön ek başına yön işleme
- Bağımsız karar verme
- Zamanlayıcılar ve yayılma gecikmeleri
- Ölçeklenebilirlik zorlukları
Özetle, varsayılan BGP toparlanmasının ön ek bağımlılığı, protokolün yönlendirme kararlarını, güncellemelerini ve geri çekmelerini bireysel ön ek düzeyinde ele alma biçiminden kaynaklanmaktadır. Bu tasarım, esnek ve ince ayarlı olduğu kadar, büyük sayıda ön ekin ağ olaylarından etkilendiği durumlarda daha yavaş toparlanmalara yol açabilir.
Ön Eke Göre Yön İşleme
BGP, her ağ ön ekini bağımsız bir yön olarak değerlendirmektedir. Bir değişiklik gerçekleştiğinde, örneğin bir bağlantı kesildiğinde veya politika güncellendiğinde, BGP, etkilenen her ön ek için en iyi yolu bireysel olarak değerlendirmek ve güncellemek zorundadır.
Eğer bir arıza birden fazla ön eki etkiliyorsa, her birinin kendi toparlanma sürecinden geçmesi gerekmektedir.
Bağımsız Karar Verme
BGP’nin en iyi yol seçim algoritması, her ön ek için ayrı çalışır. Yerel tercih, AS yolu ve MED gibi özellikler, ön ek bazında değerlendirilir. Önek gruplarına uygulanan tek bir toplu karar süreci yoktur; bu, toparlanabilme durumunu zayıflatan bir durumdur.
Zamanlayıcılar ve Yayılma Gecikmeleri
Mekanizmalardan biri olan Minimum Yönlendirme Reklam Aralığı (MRAI) zamanlayıcısı her ön ek için bireysel olarak uygulanır.
Yönler geri çekildiğinde veya güncellendiğinde, her ön ek kendi zamanlayıcı gecikmesiyle karşılaşabilir; bu durum ön ek sayısı arttıkça genel toparlanma süresine katkıda bulunur.
Ölçeklenebilirlik Zorlukları
Milyonlarca ön ek barındıran büyük ağlarda, her yönü bireysel olarak işleme gereği belirgin gecikmelere yol açabilir. Bu nedenle BGP PIC, hızlı toparlanma sağlamak için önceden hesaplanmış yedek yolları oluşturmak üzere geliştirilmiştir.
Sonuç
BGP PIC, büyük ölçekli AI cihazlarındaki dayanıklılık sorununa yenilikçi bir çözüm sunmaktadır. Toplanma süresini son derece büyük GPU kümelerinden, küçük ölçekli cihazlara kadar minimize etmektedir; böylece ön ek sayısı, toparlanma süresinin bağımsız hale gelmesini sağlamaktadır. NVIDIA Spectrum-X piyasada benzersiz bir çözüm olmasını bu şekilde sağlanmaktadır.
BGP PIC ve Spectrum-X, NCCL işleri ve AI iş yüklerini bağlantı kesintilerine ve dalgalanmalara karşı daha dayanıklı hale getirir ve LLM eğitimi süresinde belirlenebilirlik kazandırır.
Daha fazla bilgi için aşağıdaki kaynaklara göz atabilirsiniz: