Blackwell, Meta’nın Llama 4 Maverick’i ile 1,000 TPS/Kullanıcı Engeline Çıkıyor

NVIDIA, LLM Performansında Dünya Rekoru Kırdı

NVIDIA, büyük dil modelleri (LLM) için muazzam bir performans hızı elde etti. Sekiz NVIDIA Blackwell GPU içeren tek bir NVIDIA DGX B200 düğümü, 400 milyar parametreye sahip Llama 4 Maverick modelinde kullanıcı başına 1,000’den fazla token (TPS) hızına ulaşabiliyor. Bu hız, bağımsız olarak Artificial Analysis adlı yapay zeka benchmark hizmeti tarafından ölçülmüştür.

Blackwell Donanımının Avantajları

Bu rekor ile Blackwell, Llama 4’ün herhangi bir uygulama senaryosunda optimal donanım olarak öne çıkıyor; bu, yüksek veri akışını maksimize etmek veya gecikmeyi minimize etmek için geçerlidir. NVIDIA Blackwell, bu modelde 1,000 TPS/kullanıcı milestonunu aşan ilk platformdur ve en yüksek veri akışı yapılandırmasında 72,000 TPS/sunucu hızına ulaşmaktadır.

Yazılım Optimizasyonları

NVIDIA, Blackwell GPU’larından maksimum verim almak için önemli yazılım optimizasyonları gerçekleştirdi ve TensorRT-LLM kullanarak bir spekülatif kod çözücü taslak modeli eğitti. Bu yaklaşımları birleştirerek, NVIDIA, en iyi önceki Blackwell temeline göre 4 kat hız artışı sağladı.

Model Doğruluğu Sonuçları

Aşağıda yer alan optimizasyonlar, performansı önemli ölçüde artırırken yanıt doğruluğunu korumaktadır. FP8 veri tiplerini GEMM’ler, Uzmanların Karışımı (MoE) ve Dikkat işlemleri için kullanarak model boyutunu azaltmış ve Blackwell Tensor Core teknolojisi ile yüksek FP8 veri akışından yararlanmıştır. FP8 veri formatı kullanıldığında doğruluk, Artificial Analysis BF16 ile birçok metrikte eşleşmektedir, aşağıdaki tabloda gösterilmiştir:

LiveCodeBench	AIME 2024	GPQA Diamond	MATH-500
AA Referansı Llama 4 Maverick (BF16)	0.397	0.39	0.671	0.889
Optimize Edilmiş Llama 4 Maverick (FP8)	0.383	0.40	0.686	0.876

Tablo 1. Llama 4 Maverick için model doğruluğu karşılaştırması, referans ile optimize edilmiş

Neden Gecikmeyi Minimize Etmek Önemlidir?

Çoğu üretken yapay zeka uygulamasında verimlilik ve gecikme arasında bir denge sağlamak gereklidir; böylece birçok kullanıcı “yeterince iyi” bir deneyim yaşayabilir. Ancak kritik uygulamalar, önemli kararları hızlıca almak zorunda olduklarında, bir kullanıcı için gecikmeyi minimize etmek temel bir öncelik haline gelir. TPS/kullanıcı rekorunun gösterdiği gibi, Blackwell donanımı, her görev için en iyi seçimdir; ister verimliliği maksimize etmek, ister her iki unsuru dengelemek ya da bir kullanıcı için gecikmeyi minimize etmek olsun.

Minimum Gecikme için Optimizasyonlar

Aşağıda, NVIDIA’nın çıkarım esnasında uyguladığı çekirdek optimizasyonları ve birleşimlerine (kırmızı-dash kareler içindeki) genel bir bakış sunulmaktadır. NVIDIA, minimum gecikme senaryosunda Blackwell’in üstün performans göstermesini sağlamak için düşük gecikme GEMM çekirdekleri uyguladı ve çeşitli çekirdek birleşimleri (örn. FC13 + SwiGLU, FC_QKV + attn_scaling ve AllReduce + RMSnorm) gerçekleştirdi.

CUDA Çekirdek Optimizasyonları ve Birleşimler

NVIDIA, Blackwell GPU’larında en iyi performansı elde etmek için GEMM’ler, MoE ve Dikkat işlemleri için CUDA çekirdeklerini optimize etti.

Uzamsal bölümlendirme (warp specialization olarak da bilinir) kullandı ve GEMM çekirdeklerini, NVIDIA DGX sisteminin sunduğu devasa bellek bant genişliğinden en iyi şekilde yararlanmaları için bellekten verileri yükleyecek şekilde tasarladı—toplamda 64TB/s HBM3e bant genişliği.
Dikkat çekirdeklerinin performansını optimize etmek için K ve V tensörlerinin dizilim boyutunda hesaplamaları bölerek çoklu CUDA çekirdek blokları arasında paralel olarak çalıştırdı. Ayrıca, NVIDIA, sonuçları aynı çekirdek bloğu kümesindeki çekirdek blokları arasında verimli bir şekilde azaltmak için dağıtılmış paylaşılan bellek kullandı.
Çekirdek işlemleri arasındaki yükleme/depolama aşamalarını azaltmak için işlemleri birbirine birleştirdi. Örneğin, NVIDIA AllReduce işlemini RMSNorm işlemi ile birleştirdi ve Quantiye işlemini tek bir CUDA çekirdeğine sıkıştırdı.

Programatik Bağımlı Başlatma (PDL)

Programatik Bağımlı Başlatma (PDL), aynı akıştaki iki ardışık CUDA çekirdeği arasında GPU boşta kalma süresini azaltan ve hatta iki CUDA çekirdeğinin üst üste çalışmasına olanak tanıyan bir CUDA özelliğidir.

Varsayılan olarak, aynı CUDA akışında bulunan çekirdekler başlatıldığında, ikincisi ilk çekirdek tamamlanana kadar çalışmaya başlamaz. Bu, iki performans sorunu doğurur: İlk olarak, iki ardışık çekirdek yürütümleri arasında tiny boşluklar oluşur. İkinci olarak, ilk çekirdek yürütme süresi sona yaklaştığında, çekirdek hala bazı Streaming Multiprocessors (SM’ler) üzerinde bir kısmı doldurarak diğerlerinin yapılmamasına neden olur.

Programatik Bağımlı Başlatma API’lerini kullanan NVIDIA, ikinci çekirdeğin ilk çekirdek hala çalışırken yürütülmesine izin veriyor ve bu şekilde boşlukları ortadan kaldırarak GPU kullanımını artırıyor.

Spekülatif Kod Çözme

Spekülatif kod çözme, LLM’lerin çıkarım hızını artırmadan oluşturulan metin kalitesinden ödün vermeden hızlandırmak için kullanılan popüler bir tekniktir. Daha küçük, daha hızlı bir “taslak” modelin bir dizi spekülatif token tahmin etmesine olanak tanırken, daha büyük “hedef” LLM bu tahminleri paralel olarak doğrulamak için devreye girer. Hız artışı, hedef model iterasyonunda aynı anda birden fazla token üretmekten, taslak modelin ek yükü ile elde edilir.

Spekülatif kod çözme işlemi şeması, yukarıdaki diyagramda gösterilmiştir. Başlangıçta, hedef model bir bağlam aşaması gerçekleştirir ve ilk token’i (t1) üretir; ardından taslak model hızlı bir şekilde potansiyel token’lar dizisini (örneğin, d2-d4) üretir. Hedef model, elde edilen taslak dizisinde paralel olarak birkaç token’ı oluşturma aşamasına geçer. Doğru olan token’lar (d2, d3 gibi) kabul edilirken, yanlış olanlar (d4 gibi) reddedilir.

Bu süreç tekrarlanmaktadır; kabul edilen token’lar korunurken, hedef model bir hata olduğunda doğru son token’i (t4) verir ve taslak model yeni bir spekülatif dizi üretir (d5-d7). Böylece, potansiyel olarak büyük bir hız artışı sağlanır. Kabul Uzunluğu (AL), ortalama olarak tek bir doğrulama adımı ile ne kadar token üretebileceğinizi tanımlar. AL ne kadar yüksek olursa, hız artışı da o kadar büyük olur.

NVIDIA, EAGLE3 tabanlı bir mimari kullanarak spekülatif kod çözme yöntemini uygulamakta ve yalnızca spekülatif katmanın FFN boyutunu değiştirerek AL’yi iyileştirmektedir. Çıkarım sırasında, NVIDIA, hedef modelin ileri geçişinin ilk, orta ve son kodlama katmanlarındaki düşük, orta ve yüksek düzeyde özellikleri (gizli durumlar) kaydeder ve bunları birleştirerek spekülatif katmana beslemektedir.

CUDA Grafikleri ve Çakışma Zamanlayıcısı ile Ana Bilgisayar Üzerinde Yük Azaltma

Spekülatif kod çözümüyle ilgili bir diğer zorluk, hedef model ile taslak model arasındaki iletişim/senkronizasyon yükünü azaltmaktır. NVIDIA, örnekleme/doğrulama mantığını ana bilgisayar tarafında yerleştirirse, bu da ana bilgisayar ve cihaz arasında ek senkronizasyon noktaları oluşturup CUDA Grafiğini bozar. Bunun yerine, doğrulama mantığını cihaz üzerinde tutarak hedef modelin ileri geçişini, doğrulama mantığını ve taslak modelin ileri geçişlerini bir CUDA Grafiğine dahil etmiştir.

Ayrıca, NVIDIA TensorRT-LLM çakışma zamanlayıcısını etkinleştirerek mevcuttaki aşamaların model ileri geçişini bir sonraki aşamanın giriş hazırlığı ve CUDA Grafiği başlatma ile üst üste işlemesine olanak sağlamıştır.

Özet

NVIDIA, veri merkezi ve yapay zeka altyapısı konusundaki liderliğini bir kez daha kanıtlayarak, 400 milyar parametreye sahip Llama 4 Maverick modelinde kullanıcı başına 1,000’den fazla token/saniye gibi çarpıcı bir performansa ulaşmıştır. Bu dünya rekoru hız—güçlü Blackwell mimarisi, CUDA seviyesinden derin yazılım optimizasyonları ve NVIDIA’nın özelleştirilmiş spekülatif kod çözme uygulamasından kaynaklanan önemli hız artışları ile desteklenmektedir—gelecek nesil yapay zeka etkileşimleri için düşük gecikme ihtiyacını doğrudan karşılamaktadır. NVIDIA bu gelişmelerle, büyük modellerin bile hız ve yanıt verme gereksinimlerini karşılayabildiğini göstermiştir.