“NVL72 Rack Ölçek Sistemlerinde Geniş Uzman Paralelliği ile Büyük MoE Modellerinin Ölçeklendirilmesi”

Modern AI (Yapay Zeka) yükleri artık tek GPU (Grafik İşlemci) ile gerçekleşen çıkarım hizmetlerinin çok ötesine geçti. Model paralelliği, hesaplamaları birçok GPU arasında etkili bir şekilde ayırarak, ölçeklenebilir, en son teknoloji dağıtımların temelini oluşturuyor. En yüksek performanslı modeller, yalnızca bir token için eğitimli parametrelerin bir alt kümesini aktive eden mixture-of-experts (MoE) mimarilerini benimsemeye başladı. Ancak MoE’leri ölçeklendirmenin getirdiği karmaşık paralellik, iletişim ve zamanlama gereksinimlerinin dikkatlice optimize edilmesi gerekiyor.

Uzman paralelliği (EP), uzmanları birçok GPU arasında stratejik olarak dağıtarak bu zorlukların üstesinden gelmek ve ölçeklenebilir performansı açığa çıkarmak için önemlidir. DeepSeek-R1 gibi 256 uzman ve 671 milyar parametreye sahip modeller büyüdükçe, NVIDIA Tensor RT-LLM’nin Wide Expert Parallelism (Geniş-EP) gibi yeni araçlara ihtiyaç var. Bu, büyük ölçekli dağıtımı daha verimli hale getirerek hem performansı arttırıyor hem de toplam sahip olma maliyetini düşürüyor.

Bu blogda, büyük ölçekli EP’nin performansı nasıl etkilediğini ve NVL72 raf ölçeği alanındaki çıkarım ekonomisini nasıl yeniden şekillendirdiğini ele alacağız.

Geniş ölçekli uzman paralelliğini nasıl elde edersiniz?

Uzman paralelliği (EP), MoE modelinin uzmanlarını birçok GPU arasında dağıtan bir model-paralel tekniğidir. Küçük ölçeklerde, EP, iş yükünü cihazlar arasında dengeleyerek bellek üzerindeki baskıyı azaltmaya ve kullanımı yüksek tutmaya yardımcı olur.

Diagram comparing small scale and large scale Expert Parallelism (EP) in mixture-of-experts (MoE) layers. Small scale EP shows multiple experts packed into each GPU across a few GPUs, while large scale EP distributes fewer experts across a large number of GPUs, illustrating how expert distribution changes to support efficient inference on bigger clusters. — Şekil 1. Küçük ölçekli EP’nin birçok uzmanı GPU’ya yerleştirdiği, büyük ölçekli EP’nin ise daha az sayıda uzmanı daha geniş bir kümeye yayarak MoE katmanlarının verimli bir şekilde ölçeklenmesini sağladığını gösteren animasyon.

DeepSeek-R1 gibi yüz milyarlarca parametreye ve yüzlerce uzmana sahip modeller büyüdükçe, bu tekniklerin kapsamının genişlemesi gerekiyor; bu, bizim büyük ölçekli EP olarak adlandırdığımız süreçtir. Bu blog için büyük ölçekli EP, uzmanları sekiz veya daha fazla GPU’ya dağıtma işlemine atıfta bulunur. Bu, daha hızlı ağırlık yükleme için toplam bant genişliğini artırır ve genel GPU kullanımını artırmak için daha büyük etkili batch boyutlarını destekler.

Büyük ölçekli EP’nin bellek ve hesaplama zorlukları nelerdir?

MoE modelleri, çıkarım sırasında yalnızca küçük bir uzman alt kümesini aktif hale getirme avantajını sunar; bu da her token için hesaplama gereksinimini önemli ölçüde azaltır. Bunu başarmak için, MoE’ler her bir token ve katman bazında aktif bir uzmanı yüklerler. Yüksek throughput ve gecikme kısıtlı senaryolarında, ağırlık yükleme gecikmesi hızlı bir şekilde MoE GroupGEMMs adı verilen belirli bir hesaplama süreci için büyük bir darboğaza dönüşebilir.

MoE GroupGEMMs, tüm tokenların aynı ödeme şeridine aynı anda gönderilmesi gibidir; böylece verimli bir batch içinde işlenebilirler. Pratikte, her bir uzman için tokenları gruplayarak tek bir büyük hesaplama işlemine dönüştüren matris çarpımlarıdır. Bu, aritmetik yoğunluğu artırır, ancak her bir uzmanın ağırlıklarını on-chip bellek/register’lara yüklemeyi gerektirir.

Diagram illustrating how input tokens sent to a GPU are routed to multiple experts; tokens for the same expert are packed into a matrix and processed by that expert’s feedforward block. The MoE GroupGEMM kernel executes all expert blocks in one step, loading weights into shared memory and reusing them for efficient, high-throughput computation across multiple tokens. — *Şekil 2. Aynı uzmana yönlendirilmiş tokenlar bir araya getirilerek tek bir birleşik GroupGEMM çekirdeği ile verimli MoE çıkarımı için işlenir.*

Büyük ölçekli EP, uzman paralel yapılandırmasına daha fazla GPU ekleyerek bazı MoE GroupGEMM darboğazlarının üstesinden gelir; bu da her bir GPU’da tutulan uzman sayısını etkili bir şekilde azaltır. Sonuçlar:

Daha az ağırlık yükleme baskısı (her GPU’da daha küçük bir uzman ağırlıkları kümesi)
GroupGEMM çekirdeği tarafından daha kolay ağırlık yeniden kullanımı (daha yüksek aritmetik yoğunluk—yüklenen ağırlıkların byte başına daha fazla FLOP)
Çekirdek içinde daha iyi hesaplama/bellek dengesi

Büyük ölçekli EP, küçük ölçekli EP’nin sınırlamalarını aşmaya yardımcı olurken, büyük MoE’leri ölçeklendirmeyi zorlaştıran yeni sistem düzeyi kısıtlamalar da getirir. TensorRT-LLM Wide-EP, bu kısıtlamaları algoritmik olarak hedef alarak ve aynı zamanda sistem ve mimari düzeyinde iş yükü yönetimini ele alarak bu zorlukları aşmaya yardımcı olur.

Sistem tasarımı ve mimarisi nasıldır?

Uzman paralelliğini ölçeklendirmenin yolu sadece GPU eklemekten geçmez. Bellek hareketi ve iletişimi verimli tutacak sistem tasarımı ve mimarisi gereklidir. İnterkonekt bant genişliği ve topoloji, aktivasyonların ve ağırlıkların cihazlar arasında akışını sağlamak için temeli oluşturur.

Buna ek olarak, optimize edilmiş yazılım ve çekirdekler, uzmanlar arası trafiği yönetmek için iletişim primitifleri, bant genişliği farkındalığıyla zamanlama ve yük dengelemesi ile görev yapar. Birlikte bu yetenekler, büyük ölçekli EP’yi pratik ve verimli hale getirir.

Nvlink ile dağıtılmış uzman iletişim gecikmesini azaltmak

Büyük ölçekli EP’deki en büyük darboğazlardan biri iletişim gecikmesidir. Çıkarımın decode aşamasında, dağıtılmış uzmanların, sistemde birçok GPU boyutunda dağıtılmış çıktıları birleştirmek için bilgi alışveriş etmesi gerekmektedir. Örneğin, DeepSeek-R1’in 256 uzmanını 64 GPU’ya dağıtırken, her bir katmanda hangi uzmanların aktive edildiği ve ağırlıkların nerede bulunduğu iletişim maliyetini etkiler.

Diagram of a large-scale MoE (Mixture-of-Experts) inference setup showing a router assigning tokens to GPUs, each with 232 expert blocks (spanning 58 layers, four experts per layer at EP=64). Only four experts are active per layer, and all GPUs are interconnected in a NVLink domain using GB200 NVL72 trays and switches for efficient expert parallelism and high-bandwidth communication in next-gen AI data center infrastructure. — *Şekil 3. 232 uzmanı olan GPU’lar arasında 4 uzman aktif katmanlı bir MoE dağıtımının diyagramı.*

Büyük ölçekli EP, aktif uzmanlar için ağırlık yükleme gecikmesini azaltırken, bunlar token-gather kolektifleri tarafından toplanan dağıtılmış çıktıları birleştirme ve yeniden sıralama gereksinimi nedeniyle ortadan kalkabilir. NVL72’nin sağladığı 130 TB/s agregalı bant genişliği olmadan, bu iletişim deseninin karmaşıklığı ve yükü büyük ölçekli EP’yi pratik olmaktan çıkarırdı.

NCCL ile optimal uzman yönlendirmesi için çekirdekleri optimize etme

MoE’ler, her token için en uygun uzmanları dinamik olarak seçen bir yönlendirme mekanizması kullanır. Bu, her bir transformer bloğunun her bir token için dağıtım ve uzman katmanlarından geçtikten sonra agregasyon gerektirdiği anlamına gelir. İçinde bulunan tüm-all işlemleri, zaten bellek sınırına ulaşan decode aşamasını hızla doldurabilir.

Bu zorlukların üstesinden gelmek için özel EP iletişim çekirdeklerine ihtiyaç vardır. GB200 NVL72 için, birden fazla raf ölçeği dağıtım senaryolarıyla CUDA grafik uyumluluğunu ele almak için özel çekirdekler uyguladık. Öne çıkan, geniş ölçekli EP dağıtımları için statik olmayan veri boyutlarını işlemek üzere tasarlanmış yüksek performanslı NCCL çekirdekleridir. Bu özel EP çekirdekleri, iletişim boyutlarını GPU bellekinden doğrudan alarak NVL72’nin toplam belleğinden faydalanabiliyor.

Geniş uzmanları yük dengeleme

Yük dengeleme, kaynak mevcudiyetine göre işe atamalarda en yüksek kullanım oranlarını elde etmek ve sistemin herhangi bir bölümünü aşırı yüklememek için kullanılan klasik bir dağıtım sistemleri tekniğidir. Büyük ölçekli EP iş yüklerinde, yük dengelemesi mevcut GPU’lar arasında uzmanları dağıtmak için kullanılır. Örneğin, GB200 NVL72 rafında Geniş-EP DeepSeek-R1’i EP=64 (temiz bölünme için) çalıştırırken, her katmanda her GPU başına dört uzman dağıtacağız; toplamda her GPU için 232 uzman atanmış olacaktır.

Ayrıca, çok popüler “sıcak uzmanların” bir GPU’da toplanıp diğer GPU’ların “soğuk uzmanlarını” boşta bırakmasını önlemek için, Geniş-EP’nin Uzman Paralel Yük Dengeleyici (EPLB) politikası, sıcak uzmanları soğuk uzmanlarla yeniden dağıtmayı teşvik eder. Bu, uzmanların konteyner tahsisatlarına akışına izin veren konteynerize bir tasarım kullanılarak ele alınır; bu sayede CUDA grafiğini bozmadan gerçekleştirilebilir. Bu ağırlık güncellemeleri, ileri geçişler arasında zamanlayarak engellenmez şekilde gerçekleştirilir.

Diagram comparing expert container placement across three GPUs. Before live EPLB, experts are unevenly distributed—GPU 2 is overloaded, GPU 3 underutilized. After live EPLB, experts are relocated across GPUs for balanced computation. A horizontal bar at the bottom visualizes cold-to-hot (underloaded to overloaded) GPU status, highlighting the improvement in resource balancing with EPLB. — *Şekil 4. Uzman Paralel Yük Dengeleyici (EPLB) dengesiz GPU iş yüklerini dengelemek için uzmanları yeniden dağıtır.*

EPLB iki farklı modda çalışabilir:

Statik EPLB: Tarihsel veri desenlerine dayalı olarak önceden hesaplanmış uzman-gpu atamaları kullanarak uzman tahsisatını optimize eder.
Çevrimiçi EPLB: Gerçek zamanlı olarak değişen iş yükü desenlerine dinamik olarak uzmanları yeniden dağıtır.

Statik EPLB, statik olmayan bir EPLB yaklaşımına göre iyi bir temel iyileştirme sunarken, çevrimiçi EPLB gerçek zamanlı üretim sistemlerinde en yüksek yük dengeleme potansiyelini sağlar. Çevrimiçi EPLB’nin ilk uygulamasında, gerçek zamanlı ağırlık güncelleme süreçleriyle ilgili birkaç kritik zorluk keşfedip giderdik.

TensorRT-LLM ve NVIDIA Dynamo ile Geniş-EP

DeepSeek R1 veya Llama 4 gibi MoE modellerini ölçeklendirdiğinizde, çıkarım performansı iki temel unsura dayanır: dağıtılmış hizmet ve Geniş-EP. NVIDIA Dynamo ve TensorRT-LLM, her iki unsuru da destekleyen yazılım omurgasını oluşturur, geleneksel darboğazları aşarak muazzam throughput artışları ve etkili GPU kullanımı sağlar. Aşağıdaki tablo, Dynamo ve Geniş-EP arasındaki farkları ve sinerjileri özetlemektedir.

Komponent	NVIDIA Dynamo	TensorRT-LLM Geniş-EP
Rol	Dağıtılmış çıkarım için orkestrasyon katmanı	Uzman-paralel kodlama için yürütme motoru
Optimizasyon Kapsamı	GPU havuzları arasında önceden doldurma & kod çözme aşamalarını orkestre eder	Per token bellek ve hesaplama kullanımını optimize etmek için her GPU’da küçük sayıda uzman dağıtır
SLA Farkındalığı	SLA’ya dayalı otomatik ölçekleme ve dinamik oran eşleme (TTFT & ITL)	Verimli uzman zamanlaması ile toplu işlemleri maksimize eder ve gecikmeyi en aza indirir
Trafik Uyumu	Dynamo Planlayıcısı aracılığıyla ISL/OSL dalgalanmalarına gerçek zamanlı olarak tepki verir	Hesaplama kullanımını optimize etmek için uzman tahsisatlarını yük dengelemektedir
Donanım Sinerjisi	Dağıtılmış GPU alanlarında Kubernetes + Planlayıcı mantığı ile ölçeklenir	Uzman iletişimini verimli hale getirmek için yüksek bant genişliğine sahip alanları (örn. NVL72) kullanır

Tablo 1. Uzman-paralel çıkarım için NVIDIA Dynamo ve TensorRT-LLM Geniş-EP’nin karşılaştırması; roller, optimizasyon kapsamı, SLA farkındalığı, trafik uyumu ve donanım sinerjisi öne çıkarılıyor.

NVIDIA Dynamo ile büyük ölçekli uzman paralelliği arasındaki ilişkilere dair daha fazla bilgi için, NVIDIA Dynamo’nun nasıl kullanıldığına dair blog yazımıza göz atmanızı öneririz.

Performans ve iş yükü ekonomisi nedir?

NVLink ölçekleme ile oluşturulan tutarlı bellek alanına erişiminiz olduğunda, büyük ölçekli EP’yi optimize etmenin anahtar noktaları şunlardır:

Model boyutu ve uzman sayısı: Daha az uzmana sahip daha küçük modeller, ağırlık yüklemesinin azaltılmasının ve dağıtılmış hesaplamanın avantajları, iletişim yüklemesi nedeniyle daha az fayda sağladıklarından Geniş-EP’den daha az kazanır.
Sistem gecikmesi ve eşzamanlılık hedefleri: Büyük ölçekli EP, throughput’ü gecikmenin kısıtlı olduğu durumlarda en etkili şekilde çalışır, bu sayede iso-latency uygulamasında her GPU için daha fazla throughput sağlanır.
Donanım yetenekleri: Toplam bellek bant genişliği, inter-GPU bant genişliği ve ulaşılabilir hesaplama miktarı, sistemin optimal paralellik derecesine ulaşmasını belirler.

Pratikte, DeepSeek-R1 gibi modeller büyük ölçekli EP için iyi adaylardır; burada TensorRT-LLM’nin Geniş-EP’sinin GB200 NVL72 raf ölçeği sistemlerinde en iyi verimlilik ve throughput dengesini sağladığı gözlemlenmiştir. Aşağıdaki Pareto sınırları, farklı EP konfigürasyonları arasındaki performansları vurgulamaktadır.

Bar chart comparing small EP rank 8 and large EP rank 32 on DeepSeek-R1, showing that large EP rank 32 achieves 1.8 times more output tokens per second per GPU than small EP rank 8, at a consistent user throughput of 100 tokens per second. — Şekil 5. Büyük ölçekli Uzman Paralelliği (EP) sıralaması 32, kullanıcı başına 100 token/saniye sabit throughput ile karşılaştırıldığında küçük EP sıralaması 8’e göre GPU başına %1,8 daha yüksek çıktı token throughput’u sunuyor.

Küçük EP konfigürasyonuna (EP8) kıyasla, büyük EP konfigürasyonu (EP32) GPU başına %1,8 daha fazla throughput sağlıyor. Bu, büyük ölçekli EP ve Geniş-EP’den faydalanmanın performans artışı fırsatını vurguluyor. Ek olarak, spesifik dekodlama ile çoklu token tahmininin (MTP) kullanılma fırsatı, kullanıcı başına token throughput’unu artırmak için mevcut; bu işlev Geniş-EP ile zaten uyumludur.

Sonuç

GB200 NVL72 üzerindeki Geniş-EP, büyük MoE modellerini ölçeklendirmenin pratik bir yolunu sunmaktadır. Uzmanların daha fazla GPU’ya dağıtılması, ağırlık yükleme baskısını azaltmakta, GroupGEMM verimliliğini artırmakta ve NVL72’nin 130 TB/s koheren NVLink alanının sunduğu iletişim gecikmesini azaltmaktadır. Testlerde, büyük EP konfigürasyonları, daha küçük EP yapılandırmalarına göre %1,8 daha yüksek GPU başına throughput’a ulaşmıştır. Bu kazanımlar, throughput, gecikme ve kullanılabilirlik dengesini büyük ölçekli çıkarım için daha verimli hale getiriyor.

Daha geniş bir etki ise sistem ekonomisi üzerinedir. Daha yüksek eşzamanlılık ve daha güçlü GPU verimliliği sağlayarak, NVL72 üzerinde Geniş-EP, token/saniye/GPU oranlarını artırmakta ve büyük modellerin sunum maliyetini düşürmektedir. Geliştiriciler için bu, TensorRT-LLM içinde Geniş-EP’yi keşfetmek adına optimal konfigürasyonları bulmak anlamına gelmektedir. Araştırmacılar için, zamanlama, yük dengeleme ve dekodlama stratejilerini geliştirme alanı yaratmaktadır. Altyapı ekipleri için, GB200 NVL72’nin trilyon parametreli dağıtım maliyetini nasıl değiştirebileceğini vurgulamaktadır.

Daha fazla bilgi için, GB200 NVL72 ile büyük ölçekli EP’nin diğer sistem mimarilerine göre en düşük toplam sahip olma maliyetini sağladığını bulduğumuz en son InferenceMAX benchmarklarının göz atın.

Güncel performans bilgileri için NVIDIA Çıkarma Performans paneline göz atmayı unutmayın.

SON DAKİKA

“NVL72 Rack Ölçek Sistemlerinde Geniş Uzman Paralelliği ile Büyük MoE Modellerinin Ölçeklendirilmesi”

Geniş ölçekli uzman paralelliğini nasıl elde edersiniz?