NVIDIA NVLink ve NVLink Fusion ile AI Inference Performansını ve Esnekliğini Artırma

Yapay Zeka (YZ) model karmaşıklığındaki üstel artış, parametre sayısını milyonlardan trilyonlara çıkararak daha önce hiç görülmemiş hesaplama kaynaklarını gerektirmektedir. Bu artış, mixture-of-experts (MoE) mimarilerinin benimsenmesi ve YZ akıl yürütme ile test zamanlı ölçekleme gibi tekniklerin kullanılmasıyla daha da artıyor. YZ sistemleri, yüksek verimli inference (çıkarım) yapabilmek adına büyük ölçekte paralelizasyon stratejilerine yöneliyor; bunlar arasında tensor, pipeline ve uzman paralelliği yer alıyor. Bu durum, bir bellek-anlamlı ölçekleme hesaplama yapısının bağlandığı daha büyük GPU alanlarına olan ihtiyacı artırıyor.

Bu blog yazısı, karmaşık YZ modellerinin artan taleplerine yanıt vermek üzere NVIDIA NVLink ölçeklenebilir kumaş teknolojilerinin performansını ve kapsamını nasıl geliştirdiğini detaylandırmaktadır.

AI model parameter growth chart (2005–2025) showing transition from CPU to GPU to multi-GPU to large-scale AI reasoning, with key models labeled and eras highlighted. — *Şekil 1. Model boyutu ve karmaşıklığının artışı, ölçeklenebilir alan boyutunu etkiler.*

NVLink’in Gelişimi ve Ölçekleme Talepleri

NVIDIA, 2016 yılında NVLink’i tanıtarak yüksek performanslı hesaplama ve YZ iş yüklerindeki PCIe sınırlamalarını aşmayı amaçladı. Bu teknoloji, GPU’lar arasında daha hızlı iletişim sağladı ve birleşik bir bellek alanı oluşturdu.

2018 yılında, NVIDIA NVLink Switch teknolojisi, 8 GPU’luk bir topolojide her GPU arasında 300 GB/s all-to-all bant genişliği sağladı. Bu, çoklu GPU hesaplama çağı için ölçeklenebilir hesaplama kumaşlarının yolunu açtı. Üçüncü nesil NVLink Switch ile birlikte sunulan NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) teknolojisi, performans artışı sağlamak için bant genişliği optimizasyonları ve toplu işlem gecikmesini azaltma gibi faydalar sundu.

2024 yılında piyasaya sürülen beşinci nesil NVLink, NVLink Switch iyileştirmeleri ile 72 GPU arasındaki iletişimi destekleyerek 1,800 GB/s hızında çalışmakta ve toplamda 130 TB/s bant genişliği sunmaktadır; bu sonuç, ilk nesile göre 800 kat daha fazladır.

NVIDIA, yaklaşık on yıldır üretim aşamasında olan NVLink ile sınırlamaları zorlamayı sürdürüyor. Teknolojik gelişmeleri yıllık bir hızla sunarak YZ model karmaşıklığındaki eksponansiyel artışa karşılık veriyor.

A diagram of NVLink history across generations. — *Şekil 2. NVLink ölçeklenebilirliği ile yenilik hızındaki artış*

NVLink’in performansı, gerekli yazılımlar ve iletişim kütüphanelerine bağlıdır; bunlar arasında en önemlisi NVIDIA Collective Communication Library (NCCL) bulunmaktadır.

NCCL, tek düğüm ve çok düğümlü topolojilerde GPU’lar arasındaki iletişimi hızlandırmak için açık kaynaklı bir kütüphane olarak geliştirilmiştir. Yüksek veri aktarımı performansı sunar ve ölçeklenebilirlik sağlar. NCCL, tüm önemli derin öğrenme çerçeveleri ile entegre edilmiştir ve 10 yıllık geliştirme süreci ve üretim uygulaması sunmaktadır.

NCCL hardware and software stack. — *Şekil 3. NCCL, ölçeklenebilirlik açılarında tüm önemli çerçevelerde desteklenir*

YZ Fabrika Gelirini Maksimuma Çıkarma

NVIDIA’nın NVLink deneyimi, geniş alan boyutu ile birleştiğinde, günümüzün YZ akıl yürütme hesaplama ihtiyaçlarını karşılamaktadır. 72-GPU raf mimarisi, kullanım senaryolarında optimum çıkarım performansını sağlamada kritik bir rol oynamaktadır. LLM çıkarım performansını değerlendirirken, öncü Pareto eğrileri, verimlilik ile gecikme arasındaki dengeyi gösterir.

YZ fabrikası üretkenliği ve geliri maksimize etmek için eğri üzerindeki alanın en üst seviyeye çıkması hedeflenmektedir. Bu eğrinin dinamiklerini etkileyen pek çok değişken bulunmaktadır; bunlar arasında brüt hesaplama, bellek kapasitesi ve veri akışı gibi etkenler ile yüksek hızlı iletişim sağlayan ölçeklenebilir teknolojiler sayılabilir.

Farklı ölçeklenebilir yapılandırmalar arasında performans incelendiğinde, belirgin farklılıklar gözlemlenmektedir. Bu değişiklikler, NVLink hızının sabit kalmasına rağmen meydana gelir.

NVLink’in 4-GPU ağında (anahtarsız) bant genişliği her GPU arasında bölündüğünden eğri olumsuz etkilenir.
NVLink Switch ile 8-GPU topolojisi, her GPU’dan GPU’ya olan bağlantılar için tam bant genişliği sağladığından performansı önemli ölçüde artırır.
NVLink Switch ile 72-GPU alanına geçiş yapmak, gelir ve performansı maksimize eder.

Pareto of AI factory performance. — *Şekil 4. NVLink ölçeklenebilir kumaşı, YZ fabrikası gelirini artırıyor*

NVLink Fusion ile Özelleştirilmiş Erişim

NVIDIA, NVLink Fusion’u tanıtarak hiperscaler’lara tüm NVLink üretim kanıtlı ölçeklenebilir teknolojilere erişim sağlamaktadır. Bu teknoloji, özelleştirilmiş silikonun (CPU’lar ve XPUs) NVIDIA NVLink ölçeklenebilir kumaş teknolojisi ile entegre edilmesini sağlıyor, bu da yarı özelleştirilmiş YZ altyapısı dağıtımına olanak tanıyor.

NVLink ölçeklenebilir kumaş teknolojisine erişim, NVLink SERDES, NVLink çipletleri, NVLink Anahtarları ve raf ölçeği mimarisinin tüm yönlerini içerir. Yüksek yoğunluklu raf ölçeği mimarisi, NLVink omurgası, bakır kablo sistemi, mekanik yenilikler ve gelişmiş güç ve sıvı soğutma teknolojisi ile birlikte tedarik zinciri hazır bir ekosistem sunar.

NVLink Fusion, özelleştirilebilir CPU, özelleştirilebilir XPU veya bir arada kullanılan özelleştirilebilir CPU ve XPU yapılandırmaları için çeşitli çözümler sunar. Modüler Open Compute Project (OCP) MGX raf çözümü olarak mevcut olan NVLink Fusion, herhangi bir NIC, DPU veya ölçeklenebilir anahtar ile entegrasyon sağlar ve kullanıcılara ihtiyaç duydukları çözümleri oluşturma esnekliği sağlar.

NVLink Fusion options and components. — *Şekil 5. NVLink Fusion, NVLink ölçeklenebilir kumaşının benimsenmesi için esnek altyapı seçenekleri sunar*

Özelleştirilmiş XPU yapılandırmaları için, NVLink ile entegrasyon, Universal Chiplet Interconnect Express (UCIe) IP ve arayüz entegrasyonunu kullanarak yapılmalıdır. NVIDIA, performans ve entegrasyon kolaylığı sağlamak amacıyla UCIe’yi NVLink için köprü çiplet olarak sunar. UCIe, açık bir standarttır ve NVLink entegrasyonu için bu arayüzü kullanarak müşterilere mevcut veya gelecekteki platformları için çeşitli XPU entegrasyon seçeneklerini sunar.

Şekil 6. NVLink Fusion ile XPU’ya NVLink üzerinden erişim

Özelleştirilmiş CPU yapılandırmaları için, NVIDIA’nın NVLink-C2C IP’sini kullanarak NVIDIA GPU’larıyla bağlantı sağlamak önerilmektedir. Özel CPU’lar ile NVIDIA GPU’lara sahip sistemler, hızlandırılmış hesaplama için yüzlerce NVIDIA CUDA-X kütüphanesine erişim sağlar.

NVLink Fusion with custom CPU. — *Şekil 7. NVLink Fusion ile özelleştirilmiş CPU’ya NVLink üzerinden erişim*

Geniş Alt Yapı ve Ortaklık Ağı ile Destekleniyor

NVLink Fusion, özel silikon, CPU’lar ve IP teknolojileri için güçlü bir ortaklık ekosistemine sahiptir. Bu, geniş destek sağlar ve hızlı tasarım entegrasyonu sunar.

Raf teklifi için, adopters, NVIDIA GB200 NVL72 ve NVIDIA GB300 NVL72 sistemlerini üretim hacminde kuran sistem ortakları ve veri merkezi altyapı bileşenlerinden faydalanır. Birleşik ekosistem ve tedarik zinciri, adopters’ın pazara çıkış sürelerini hızlandırmasına ve sadece üretim aşamasındaki raf ölçeği, ölçeklenebilir kumaş için kurulum sürelerini azaltmasına olanak tanır.

YZ Akıl Yürütmede Daha Fazla Performans

NVLink, YZ akıl yürütme çağındaki hesaplama taleplerine cevap vermek için önemli bir adım atmaktadır. Yılların NVLink ölçeklenebilir teknoloji deneyimini kullanarak ve OCP MGX raf mimarisinin açık ve üretim aşamasında olan standartlarını birleştirerek NVLink Fusion, hiperscaler’lara eşi benzeri görülmemiş bir performans ve kapsamlı özelleştirme seçenekleri sunar.

NVLink Fusion hakkında daha fazla bilgi edinmek için buraya tıklayın.

SON DAKİKA

NVIDIA NVLink ve NVLink Fusion ile AI Inference Performansını ve Esnekliğini Artırma