“NVIDIA GB200 NVL72 ve NVIDIA Dynamo Boost ile MoE Modellerinin Kapsamlı İnference Performansı”

Son dönemde açık kaynaklı büyük dil modellerinin (LLM’ler) yeni dalgası, özellikle Mixture of Experts (MoE) mimarilerini benimsemeye başladı. Geleneksel yoğun modellere kıyasla, MoE’ler, yalnızca belirli bir grup uzmanı – yani uzmanları – aktif hale getirerek çıkış sağlıyor. Bu seçici aktivasyon, hesaplama yükünü azaltıyor ve böylece daha hızlı sonuç süreleri ile düşük dağıtım maliyetleri sunuyor.

NVIDIA Dynamo’nun geliştirilmiş çıkış optimizasyon teknikleri ile birleştiğinde (örneğin, dağıtılmış sunum) ve NVIDIA GB200 NVL72 çipinin büyük ölçek mimarisi ile birleştiğinde, MoE modelleri, yeni seviyelerde çıkış verimliliği sunma potansiyeline sahip. Bu sinerji, yapay zeka fabrikalarının, kullanıcı isteklerini karşılamak için daha fazla talep sunmasına olanak tanıyor.

Bu blogda, mevcut araştırmamızdan elde edilen bulguları kullanıyoruz. Araştırmada, yüksek değerli bir veri merkezi ölçek GPU performans simülatörü kullanarak farklı donanım konfigürasyonları üzerinde yüz binlerce tasarım noktası değerlendirildi ve dağıtım ile geniş model paralelliğinin MoE çıkışına etkisi incelendi.

MoE Model Performansının Dağıtılmış Sunum ile Artırılması

2018 yılında Google Araştırmacıları tarafından tanıtılan BERT modelinden bu yana, model ağırlıkları 1,000 katın üzerinde arttı ve üretken çıkarım için hız ve etkileşim beklentileri yükseldi. Bu nedenle, modelleri birden fazla GPU üzerinde parçalamak için, model paralelliği teknikleri kullanmak, artık yaygın bir uygulama haline geldi. Bunlar arasında Tensor Paralelliği (TP), Pipeline Paralelliği (PP) ve Veri Paralelliği (DP) yer alıyor.

Geleneksel LLM dağıtımları genellikle, çıkarımın önceden doldurma ve çözümleme aşamalarını tek bir GPU veya düğümde birleştirir. Ancak, doğal olarak token-paralel olan önceden doldurma aşaması, otoregresif çözümleme aşamasından farklı kaynak gereksinimlerine sahiptir. Tipik hizmet senaryolarında, bu aşamalara uygulanabilir hizmet seviyeleri (SLA’lar) de farklıdır; önceden doldurma için İlk Token Zamanı (TTFT) gereksinimleri ve çözümleme için Token’lar Arası Gecikme (ITL) gereksinimleri vardır. Bu nedenle, her aşama different model paralellik seçimlerinden faydalanır. Bu aşamaların birleştirilmesi, özellikle uzun giriş dizileri için verimsiz kaynak kullanımına yol açar.

Two high-level overview charts comparing traditional inference serving with disaggregated serving. — *Şekil 1. Dağıtılmış sunum, önceden doldurma ve çözümleme aşamalarını farklı GPU’lara ayırarak performansı optimize eder.*

Dağıtılmış sunum, bu aşamaları farklı GPU’lar veya GPU düğümleri arasında ayırarak bağımsız optimizasyon sağlar. Bu ayrım, çeşitli model paralellliği stratejilerinin uygulanmasına ve her aşamanın özel ihtiyaçlarını karşılamak için farklı sayıda GPU cihazı atanmasına olanak tanır.

MoE modelleri, modeli uzmanlara böler. Her zaman tam modeli her token için aktifleştirmek yerine, bir kapı mekanizması dinamik olarak bu uzmanların küçük bir alt kümesini işlem için seçer. Her gelen token, seçilen uzmanlara yönlendirilir; bu uzmanlar, hesaplamaları gerçekleştirir ve sonuçları tüm-güçlü GPU iletişimi aracılığıyla değiş tokuş eder.

MoE’lerin benzersiz mimarisi, Uzman Paralelliği (EP) adı verilen yeni bir model paralellik boyutunun tanıtılmasına olanak tanır. EP ile model uzmanları GPU’lar arasında dağıtılır, bu da daha zengin model paralel eşleştirmeler sağlar ve kaynak kullanımını artırır. EP’nin, DP, TP ve PP gibi mevcut model paralellik tekniklerinin yanı sıra dağıtılmış sunumda MoE modellerini sunma açısından olağanüstü bir model arama alanı genişlemesi sağlar.

NVIDIA Dynamo, MoE Modelleri için Dağıtılmış Sunumu Güçlendiriyor

NVIDIA Dynamo, veri merkezi ölçeğinde modelleri dağıtmak için tasarlanmış dağıtılmış bir çıkarım sunum çerçevesidir. Dağıtılmış sunum mimarilerinin getirdiği karmaşıklıkları basitleştirir ve otomatikleştirir. Bu, önceden doldurma ve çözümleme GPU’ları arasındaki KV cache’in hızlı aktarımını yönetmeyi, gelen istekleri etkili bir şekilde yönlendirmeyi içerir.

Dağıtılmış bir kurulumda en önemli zorluklardan biri, önceden doldurma ve çözümleme GPU’ları arasında istek oranlarının eşleştirilmesidir. Dinamik oran eşleştirmesi, kaynakların önceden doldurma ve çözümleme aşamaları arasındaki yük bazında tahsis edilmesini sağlar. Bu, önceden doldurma ile çözümleme arasında KV cache beklerken çözümleme GPU’larının boş beklemesini engeller ve önceden doldurma görevlerinin, çözümleme aşamasında sıraya girmesini önler.

A line chart showing the optimal ratio for rate matching in disaggregated serving varies based on target latency. — *Şekil 3: Gecikme SLA’larının etkisini simüle eden oran eşleştirmesi, belirli SLA gereksinimlerine göre oran eşleştirme stratejilerini ayarlamanın gerekliliğini vurguluyor.*

Şekil 2’ye baktığımızda, her mavi nokta yalnızca önceden doldurma ve çözümleme model paralel konfigürasyonlarının benzersiz bir kombinasyonunu değil, aynı zamanda önceden doldurma ve çözümleme GPU’ları arasında dikkatlice dengelenmiş bir oran eşleştirmesini temsil eder. Bu oran eşleştirmesi, sabit Giriş Dizisi Uzunluğu (ISL) ve Çıkış Dizisi Uzunluğu (OSL) kombinasyonları için hesaplanabilirken, gerçek dünya dağıtımları daha büyük bir zorluk sunar. ISL ve OSL’ler genellikle bir isteğe bağlı olarak değişir, bu da tutarlı oran eşleştirmeyi oldukça karmaşık hale getirir.

A diagram showing a high-level overview of the Dynamo planner. The planner dynamically adjusts the size of prefill and generation pool in disaggregated serving for optimal rate matching. — *Şekil 4: Dynamo Planlayıcısı, GPU kullanımını optimize etmek için önceden doldurma ve çözümleme ile ilgili metrikleri birleştirerek GPU’ların boyutunu dinamik olarak ayarlıyor.*

Bunu ele almak için NVIDIA Dynamo, dalgalanan yükler için önceden doldurma ve çözümleme GPU’ları arasında oran eşleştirmeyi otomatikleştirmek için tasarlanmış özel bir motor, Planlayıcı içerir. Bu, önceden doldurma kuyruk zamanı, çözümleme için KV Cache bellek kullanımı ve uygulama SLA’larını değerlendirerek GPU kaynaklarının optimal konfigürasyonunu belirler. Bu, gelen isteklerin türlerini, hangi yönde ve hangi oranlarda ölçeklendireceğini, değişen giriş ve çıkış dizisi taleplerine göre akıllıca karar verir.

Dört grafik, farklı trafik modelleri altında DeepSeek-R1 çıkarımı için verimliliği gösteriyor. — Şekil 5: DeepSeek-R1 çıkarımında Pareto performansı, dört ayrı trafik modeli ile simüle edildi. Dağıtılmış sunum, önceden doldurma ağırlıklı trafik altında en fazla faydayı sağlıyor.

Dağıtılmış sunum, uzun ISL/OSL trafik modellerinin geniş bir yelpazesinden faydalanır; özellikle önceden doldurma ağırlıklı iş yükleri, dengelemeye çalışan toplu dağıtımda önemli ölçüde zarar görebilir.

Uzun ve kısa ISL ve OSL arasında iş yükleri değiştiğinde, Dynamo Planlayıcısı, bu değişikliklere yanıt verebilir ve gelen istekleri, çözümleme GPU’ları üzerinde geleneksel birleşik dağıtımlar veya hem önceden doldurma hem de çözümleme GPU’ları arasında dağıtılmış sunum ile sunma seçeneğini belirleyebilir. Bu, dalgalanan iş yüklerine uyum sağlar ve GPU kullanımını optimize eder.

A diagram with a high-level overview of Dynamo Planner. Dynamo Planner analyzes GPU capacity metrics to make the optimal decision on how to serve incoming requests or allocate GPU workers. — *Şekil 6: Dynamo Planlayıcısı, GPU kapasite metriklerini analiz ederek gelen isteklerin nasıl sunulacağına veya GPU işçilerinin nasıl tahsis edileceğine dair optimal kararı alır.*

NVIDIA GB200 NVL72 NVLink Mimarisi Kullanma

MoE modellerinde, her giriş tokeni, dinamik olarak seçilen uzmanların küçük bir alt kümesine yönlendirilir. DeepSeek R1 modelinde, her token, 256 uzman havuzunun yalnızca sekiz uzmanına yönlendirilir. Bu seçilmiş uzmanlar, bağımsız olarak çıkış hesaplamalarının bir kısmını gerçekleştirir ve ardından her biri, sonuçlarını ve paylaşılan uzman ile beraber diğerleriyle bir tüm-güçlü iletişim modeli aracılığıyla değiş tokuş eder.

MoE modellerinin performans avantajlarını gerçekten kullanabilmek için, çözümleme aşamasının geniş bir EP kurulumuyla tasarlanması önemlidir. Bu, uzmanların GPU’lar arasında dağıtılması anlamına gelir ve her GPU, az sayıda uzmandan sorumlu olur. DeepSeek R1 modeli için bu genellikle, çözümleme sırasında 256 yönlendirilmiş uzmandan dört uzmanın her GPU’ya düşmesiyle 64 GPU gerektirir.

A picture of an NVIDIA GB200 NVL72 rack—with four NVLink cartridges (spines). — Şekil 7: NVIDIA GB200 NVL72 rafı, dört NVLink kartuşu (omurgaları) ile birlikte, her biri 36 kat daha hızlı iletişim sağlayarak GPU’ların birbirleriyle iletişim kurmasına yardımcı oluyor.

Ancak, seçilen uzmanlar arasında gerçekleştirilen tüm-güçlü iletişim, önemli ağ zorluklarını da beraberinde getiriyor. Her çözümleme ile ilgili uzman, aynı token için seçilen diğer yedi uzman ile veri değiş tokuşu yapmak zorundadır; bu sebeple, tüm 256 uzman ile birlikte, bu uzmanların ev sahipliği yaptığı 64 GPU’nun aynı düşük gecikmeli, yüksek bant genişliğine sahip bir alan içinde çalışması kritik hale geliyor. Eğer seçilen uzmanlar farklı düğümlerdeki GPU’larda bulunuyorsa, tüm-güçlü iletişim, daha yavaş iletişim protokollerine, örneğin InfiniBand’a, takılma riski taşır.

Bu seviyede iletişim verimliliğini sağlamak için, 64 GPU’nun hepsinin birbirine sıkı bir şekilde bağlanmış bir yapılandırmaya sahip olması gerekir; bu sayede, iletişim darboğazlarını önlemek ve verimliliği artırmak mümkün olur.

A diagram with a high-level overview of the NVIDIA GB200 NVL72 NVLink domain, which delivers an aggregate All-to-All bandwidth of 130 TBps. — *Şekil 8: NVIDIA GB200 NVL72 NVLink alanı, toplamda 130 TB/sn’lik toplam bant genişliği sunuyor.*

NVIDIA GB200 NVL72’nin tanıtılmasından önce, tek bir NVLink alanına bağlanabilecek GPU’ların maksimum sayısı sekiz ile sınırlıydı. GB200 NVL72 tasarımının getirdiği devrim, artık NVLink alanının 72 NVIDIA Blackwell GPU’sunu destekleyebilmesi ve her GPU’nun iletişim hızının 1.8 TB/sn olmasıdır. Bu, 400 Gbps Ethernet standartlarından 36 kat daha hızlıdır. Bu büyüme, GB200 NVL72’yi, dağıtılmış yapılar için geniş EP ile MoE modellerinin sunulmasında ideal bir seçim haline getirmektedir.

Two charts showing throughput versus interactivity Pareto frontier comparing collocated and disaggregated serving with NVLink 8 and 72. — Şekil 9: Daha geniş bir NVLink alanı, dağıtılmış sunum performansını artırmaktadır. Simülasyonlar, DeepSeek-R1’in, ortalama gecikmede daha yüksek EP ve toplama fayda sağladığını gösteriyor.

Yalnızca MoE’ler Değil: NVIDIA GB200 NVL72 ve NVIDIA Dynamo Yoğun Modelleri Hızlandırıyor

GB200 NVL72 ve Dynamo, yalnızca MoE modellerini hızlandırmakla kalmaz, aynı zamanda popüler açık kaynak Llama 70B modeli gibi geleneksel yoğun modellere de önemli performans artışları sağlar.

A chart showing throughput versus interactivity Pareto frontier for Llama-3.1-70B. It compares disaggregated and colocated serving. — *Şekil 10: Bu grafik, Llama 70B modeli için yüzlerce farklı model paralellik konfigürasyonunun simülasyonlarından alınan normalize edilmiş çıkış ve gecikmeyi karşılaştırıyor.*

Aynı yüksek değerli GPU performans simülatörü kullanılarak Llama 70B modeli hizmete sunulurken, TTL kısıtlamaları sıkılaştıkça (x ekseninde sola kayarken), tensor paralelliğinin 2 GPU’dan 64 GPU’ya kadar ölçeklenmesi gerektiği gösterilmiştir. Her iki yerleştirme de, sıkı TTL SLA’lar altında yüksek tensor paralelliğini tercih etse de, dağıtılmış çözümleme bu stratejiyi daha agresif bir şekilde benimseyebilir.

Önceden doldurmanın matematik açısından yoğun performansını dengelemek zorunda kalmadan, Dynamo dağıtılmış çözümleme kurulumları, sıkı gecikme taleplerine daha iyi uyum sağlayabilir. Ayrıca, GB200 NVL72’nin ölçeklenebilir mimarisi, TP çözümleme dağıtımında tüm GPU’ların iletişim kurmasını sağlayarak 260 TB/sn hıza kadar artış sağlıyor. Bu, aynı ortalama gecikme süresinde %300’e kadar performans artışı sağlıyor.

Sonuç

NVIDIA Dynamo ve NVIDIA GB200 NVL72’nin birleşimi, yapay zeka fabrikalarının üretimde olan MoE modelleri, DeepSeek R1 gibi, ve yeni piyasaya sürülen Llama 4 gibi, çıkarım performanslarını optimize eden güçlü bir sinerji yaratıyor. NVIDIA Dynamo, MoE modellerinin dağıtımı için karmaşık zorlukları otomatikleştirirken, önceden doldurma ve çözümleme otomatik ölçeklendirmesi ile oran eşleştirme gibi görevleri yönetiyor.

NVIDIA GB200 NVL72, dağıtılmış MoE dağıtımları için geniş uzman-paralel çözümleme gereksinimlerini hızlandırabilecek eşsiz bir ölçekleme mimarisi sunuyor. Birlikte, yapay zeka fabrikalarının GPU kullanımını maksimize etmelerini, her yatırım başına daha fazla talep sunmalarını ve sürekli marj büyümesini sağlamalarını mümkün kılıyor.

DeepSeek R1 ve Llama modellerinin geniş ölçekli GPU kümelerinde dağıtımı hakkında daha fazla teknik detay için, buradan teknik beyaz kağıdımıza göz atabilirsiniz.