SON DAKİKA

Nvdia

NVIDIA Spectrum-X Ağ Platformu ile AI Depolama Hızını %48’e Kadar Artırma

Yapay zeka fabrikaları yalnızca işlem gücü ile işleyemez. GPU’ları birbirine bağlayan Doğu-Batı ağı, AI uygulamalarının performansı için kritik öneme sahipse de, yüksek hızlı depolama sistemlerini birbirine bağlayan depolama ağı da bir o kadar önemlidir. Depolama performansı, yapay zeka yaşam döngüsünün birçok aşamasında, model eğitimi sırasında kontrol noktaları oluşturma, veri artırımlı üretim gibi çıkarım teknikleri ve daha fazlasında önemli bir rol oynamaktadır.

NVIDIA ve depolama ekosistemi, NVIDIA Spectrum-X ağ platformunu depolama ağına genişleterek, yapay zeka için daha yüksek performans ve daha hızlı veri ulaşımı sağlıyor. Spectrum-X’in adaptif yönlendirme özelliği, akış çakışmalarını en aza indirirken, etkili bant genişliğini artırarak depolama performansını önemli ölçüde artırır. Bu da, çoğu veri merkezinde yapay zeka ile ilgili işlem ve depolama ağları için kullanılan Ethernet protokolü olan RoCE v2’ye göre daha üstündür.

Spectrum-X ile Depolama Performansı Artıyor

Spectrum-X, okuma bant genişliğini %48’e kadar, yazma bant genişliğini ise %41’e kadar artırmıştır. Bu artış, yapay zeka iş akışlarının depolama ile ilgili adımlarının daha hızlı tamamlanmasını sağlar. Sonuç olarak, eğitim sürecinde iş tamamlama süreleri kısalır ve çıkarım aşamasında token gecikmeleri azalır. Her iki durumda da otomasyon süreci hız kazanır.

Ana Depolama Ortakları Spectrum-X’i Entegre Ediyor

Yapay zeka iş yükleri büyüdükçe ve karmaşıklaştıkça, depolama çözümlerinin de modern yapay zeka fabrikalarının taleplerine ayak uydurması gerekiyor. DDN, VAST Data ve WEKA gibi önde gelen depolama sağlayıcıları, çözümlerini Spectrum-X ile entegre etmek için NVIDIA ile iş birliği yapıyorlar ve bu sayede yapay zeka depolama ağlarına en son teknoloji yeteneklerini getiriyorlar.

Israel-1 Süper Bilgisayarında Spectrum-X Etkisi

NVIDIA, Spectrum-X performansını optimize etmek için Israel-1 adında, üretken yapay zeka odaklı bir süper bilgisayar geliştirmiştir. Bu, yapay zeka ağları için önceden test edilmiş ve onaylanmış bir şablon sunarak network dağıtımlarını basitleştirir. Israel-1, Spectrum-X’in depolama iş yükleri üzerindeki etkilerini gösteren iyi bir test alanı oldu, gerçek dünya süper bilgisayar işletim koşulları bağlamında ağın depolama performansına etkisini sergiledi.

Israel-1 ekibi, NVIDIA HGX H100 GPU sunucu istemcilerinin depolama alanına eriştiği okuma ve yazma bant genişliğini test etti. Test, ilk olarak standart RoCE v2 ağı ile yapılandırıldı, ardından adaptif yönlendirme ve Spectrum-X’in yoğunluk kontrolü etkinleştirildiğinde yeniden yapıldı.

Bu testler, istemci olarak kullanılan 40 GPU’dan 800 GPU’ya kadar değişen farklı sayıda GPU sunucusu ile yapıldı. Her durumda, Spectrum-X daha iyi performans gösterdi. Okuma bant genişliği için iyileştirmeler %20’den %48’e kadar değişirken, yazma bant genişliği %9’dan %41’e kadar iyileşti. Bu sonuçlar, DDN, VAST ve WEKA tarafından sağlanan hızlandırmalar ile karşılaştırılabilir.

Depolama Ağı Performansı Yapay Zeka Performansını Etkiliyor

Spectrum-X’in neden bu kadar büyük bir fark yarattığını anlamak için, depolamanın yapay zeka üzerindeki etkisini düşünmek önemlidir. Yapay zeka performansı, yalnızca büyük dil modeli (LLM) işlem tamamlama süresine bağlı değildir. Ayrıca, model eğitim süreci genellikle günler, haftalar veya aylar alır; bu nedenle, eğitim sırasında belirli aralıklarla kontrol noktaları oluşturmak mantıklıdır. Bu, herhangi bir sistem arızası durumunda eğitim ilerlemesinin kaybolmaması için gereklidir.

Bilonları ve trilyonları bulan parametre setlerine sahip modeller, kontrol noktası verilerini sakladıklarında, bu veri miktarı birkaç terabayta kadar çıkabilir ve bunun kayıt veya geri yüklenmesi, “fil akışları” oluşturur. Bu, ağ geçitlerinin ve bağlantıların aşırı yüklenmesine neden olabilen büyük veri patlamalarıdır. Bu nedenle, ağın eğitim iş yükü için optimal bir kullanım sağlanması gerekir.

RAG, depolama ağının bir iş yükünün performansını çok etkileyebileceği bir başka örnektir. RAG, bir LLM’nin sürekli büyüyen bir bilgi tabanı ile birleştirilmesi sayesinde modelin daha iyi yanıtlar vermesini sağlar. Bu, ek içerik veya bilginin bir vektör veritabanında yerleştirilmesi ile çalışır ve bu veritabanı arama yapılabilir bir bilgi tabanı oluşturur.

Bir çıkarım komutu geldiğinde, komut ayrıştırılır (yerleştirilir) ve veri tabanı taranır; böylece alına içerik, LLM’nin en iyi yanıtı oluşturmasına yardımcı olur. Vektör veritabanları çok boyutludur ve özellikle görsel ve video içeriklerinin bulunduğu bilgi tabanlarında oldukça büyük olabilir. Bu veri tabanları, çıkarım düğümlerine depolama ağı üzerinden bağlanır ve ağın hızlı iletişim sağlaması, gecikmeleri en aza indirecek şekilde çalışması gerekir. Bu durum, çok kiracılı üretken yapay zeka fabrikaları için oldukça önemlidir, çünkü saniyede çok sayıda sorgu gerçekleşmektedir.

Adaptif Yönlendirme ve Sıkışıklık Kontrolü Uygulaması

Spectrum-X platformu, InfiniBand’dan adapte edilen RoCE adaptif yönlendirme ve RoCE yoğunluk kontrolü gibi ana yenilikleri tanıttı. Bu yenilikler, depolama ağı ile birleştiğinde, NVIDIA’nın depolama iş yükleri için performansı ve ağ kullanımını iyileştirmesine olanak tanıyor.

Adaptif Yönlendirme

Fil akışı çakışmalarını ortadan kaldırmak ve kontrol noktaları oluşturulurken meydana gelen ağ trafiğini azaltmak için, adaptif yönlendirme kullanılır. Spectrum-4 Ethernet anahtarları, gerçek zamanlı yoğunluk verilerine dayanarak en az yoğun olan yolu dinamik olarak seçer. Paketler, ağ boyunca dağındığı için, hedefe geç gelen paketler, eski Ethernet ile yeniden iletilmesini gerektirir.

Spectrum-X ile birlikte, varış noktasındaki SuperNIC veya veri işleme birimi (DPU), paketlerin doğru sırasını bilerek, hedef hafızada sıralar ve uygulama için adaptif yönlendirmeyi şeffaf hale getirir. Bu, daha yüksek hata toleransı ile daha yüksek etkili bant genişliği ve öngörülebilir sonuçlar elde edilmesini sağlar.

Yoğunluk Kontrolü

Kontrol noktaları ve diğer depolama işlemleri genellikle incast yoğunluğuna neden olabilir; bu, çoklu istemcilerin tek bir depolama düğümüne yazma girişiminde bulunması durumudur. Spectrum-X, anahtarlı donanımdan elde edilen verileri kullanarak, SuperNIC veya DPU’yu, gönderici veri ekleme hızını yavaşlatması için bilgilendiren bir telemetri tabanlı yoğunluk kontrol tekniği sunar. Bu, yoğunluk noktalarının oluşmasını engeller ve komşu işler veya işlemler üzerinde olumsuz etkilerin yayılmasını önler.

Dayanıklılık Geliştirmeleri

Yapay zeka fabrikaları genellikle çok sayıda anahtar, kablo ve verici içerdiğinden, her bir bağlantının kapanması, ağ performansında önemli bir düşüşe yol açabilir. Ağ dayanıklılığı, sağlıklı bir altyapının sürdürülmesi açısından hayati öneme sahiptir. Spectrum-X global adaptif yönlendirme, bağlantı kesilme durumlarında optimal ve hızlı yeniden birleşme sağlar, bu da depolama ağının verimli kullanılmasını sürdürür.

NVIDIA Yığın ile Entegrasyon

Spectrum-X ile depolama ağında sağlanan yeniliklerin yanı sıra NVIDIA, depolama ile GPU verisi yolu hızlandıracak çeşitli SDK’lar, kütüphaneler ve yazılım önerileri sunmaktadır. Bunlar arasında şunlar bulunmaktadır:

  • NVIDIA Air: Anahtarlar, SuperNIC’ler ve depolama için modellemeye yönelik bulut tabanlı bir ağ simülasyon aracıdır, ilk günler, bir ve iki gün içinde depolama ağı işlemlerini hızlandırır.
  • NVIDIA Cumulus Linux: Otomasyon ve API’ler etrafında inşa edilmiş bir ağ işletim sistemi, geniş ölçekli operasyonlar ve yönetim için akıcı bir yönetim sağlar.
  • NVIDIA DOCA: NVIDIA SuperNIC’ler ve DPU’lar için geliştirilmiş SDK, depolama, güvenlik ve daha fazlası için eşsiz programlanabilirlik ve performans sunar.
  • NVIDIA NetQ: Anahtar telemetri ile entegre olan bir ağ doğrulama araç seti, ağın gerçek zamanlı görünürlüğünü sağlar.
  • NVIDIA GPUDirect Storage: Depolama ile GPU belleği arasında doğrudan bir veri yolu oluşturan bir teknoloji, veri transferini daha verimli hale getirir.

Spectrum-X ile Başlayın

Modeller büyüdükçe ve veriler daha çok biçim almaya başladıkça, depolama yapay zeka eğitiminde ve operasyonunda kritik bir öğe olmaya devam edecektir. Daha fazla bilgi için, NVIDIA’nın yayınladığı AI Depolama Fabrikalarını Optimize Etmek: NVIDIA Spectrum-X AI Depolama Ağlarını Hızlandırır başlıklı beyaz kağıdı okuyabilirsiniz. Ayrıca NVIDIA ortak ekosisteminden daha fazla bilgi alabilirsiniz:

Daha fazlası için AI İş Yükleri için Depolama İnovasyonları oturumunu NVIDIA GTC 2025 etkinliğinde izleyebilirsiniz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri