NVIDIA NeMo ile FP8 Hassasiyetinde Daha Hızlı Eğitim Verimliliği

FP8 Eğitimi ile ilgili önceki yazılarımızda FP8 hassasiyetinin temellerini inceledik ve büyük ölçekli derin öğrenme için çeşitli ölçekleme tariflerine dair derinlemesine bir bakış sunduk. Eğer bunları henüz okumadıysanız, sağlam bir temel için oradan başlamanızı öneririz.

Bu yazıda ise üretimde en önemli faktör: hız üzerinde duruyoruz. FP8 eğitimi, daha hızlı hesaplama vaat ediyor; ama bu, gerçek dünyada ne kadar bir hız kazancı sağlıyor? Teorik kazanımları azaltabilecek gizli giderler neler?

FP8 ölçekleme tariflerini NVIDIA H100 ve NVIDIA DGX B200 GPU’ları üzerinde gerçek benchmark’lar ile yan yana karşılaştıracağız. Her FP8 tarifini NVIDIA NeMo Framework kullanarak, gecikmeli ve mevcut ölçekleme, MXFP8 ve genel blok ölçekleme gibi farklı yaklaşımlar açısından değerlendirerek eğitim verimliliği, sayısal stabilite, donanım uyumluluğu ve ölçeklenebilirlik konularında inceleyeceğiz.

Farklı LLM’ler üzerindeki hem yakınsama davranışını hem de verimliliğini inceleyerek, her yaklaşımın pratik ve zorlu senaryolardaki performansını net ve uygulanabilir bir şekilde sunacağız.

FP8 Eğitiminde Hızın Önemi

Büyük dil modelleri (LLM) ve diğer son teknoloji sinir ağlarını eğitmek, giderek artan bir kaynak tüketimi ile birlikte, büyük hesaplama gücü, bellek ve zaman gerektiriyor. Hem model hem de veri seti boyutları büyüdükçe, buna bağlı maliyetler—finansal, çevresel ve zaman açısından—araştırmacılar ve uygulayıcılar için merkezi bir endişe haline geldi.

FP8 hassasiyeti bu zorlukları temel bir şekilde ele alarak, hesaplama verimliliğini artırır. Sayısal hassasiyeti 16 veya 32 bitten 8 bite düşürerek, FP8 önemli ölçüde daha hızlı hesaplama sağlar; bu da, doğrudan hızlanan araştırma döngüleri, azalan altyapı giderleri ve mevcut donanımda daha büyük, daha iddialı modeller eğitme yeteneği anlamına gelir.

Bunun ötesinde, FP8 kritik bir şekilde dağıtılmış eğitim ortamlarında iletişim gecikmelerini de azaltır, çünkü daha düşük hassasiyetteki aktivasyonlar ve gradyanlar ile daha az veri transfer edilmesi gerektiği için iletişim ağındaki darboğazlar hafifler ve ölçeklenebilirlik açısından yüksek verimlilik sağlanır.

FP8 Ölçekleme Tariflerinin Güçlü Yanları ve Dezavantajları

Bu bölümde, bu çalışmada değerlendirdiğimiz dört ana FP8 ölçekleme yaklaşımını kısa bir şekilde özetleyeceğiz, her birinin kendine özgü özelliklerini vurgulayacağız. Her tarifin mekanikleri ve uygulama detayları hakkında daha derin bir inceleme için Per-Tensor ve Per-Block Ölçekleme Stratejileri başlıklı kaynağa göz atabilirsiniz.

Gecikmeli ölçekleme: Geçmişteki değerlere dayalı stabil bir ölçek faktörü kullanarak iyi bir FP8 hesaplama performansı sunar; ancak amax tarihindeki anormal değerlere bağlı olarak kararlılığı etkilenebilir, bu da eğitim sürecini zorlaştırabilir.
Mevcut ölçekleme: Tensör aralıklarına anlık adaptasyon sağlayarak yüksek yanıt verme yeteneği sunar; bu sayede modelin yakınsama süreci iyileşir ve geçmişe yönelik izleme olmaksızın minimal bellek ve hesaplama yükü ile gerçekleştirilir.
Alt kanal (genel blok) ölçekleme: Farklı blok boyutlarını ve daha ince ölçeklemeyi ayarlayarak FP8 verimliliğini artırır; ancak daha küçük bloklar, giderek daha fazla ölçek faktörü depolama yükü getirdiği için transpoze işlemleri yeniden hesaplama gerektirebilir.
MXFP8: Donanım yerel bir çözüm olarak, hem aktivasyonlar hem de ağırlıklar için sabit 32 değerlik bloklarla birlikte güçlü bir blok ölçekleme sunar. Bu tarif, NVIDIA Blackwell tabanlı işlemlerle minimum kuantizasyon hatası ve önemli performans kazanımları (1.5x’ye kadar GEMM çıkışı) sağlar.

Ölçekleme Tarifi Granülaritesi

Şekil 1, NVIDIA H100 üzerinde çeşitli ölçekleme yaklaşımları için ölçülen FP8 yüksek hassasiyetli matris çarpımları (GEMM) üzerinden BF16’ya göre hız artışını göstermektedir. Donanım yerel ölçeklendirme (kanal bazlı, alt kanal bazlı, tensör bazlı) kadar 2x hız kazanımına kadar çıkabilmekte; bu da FP8’in donanım düzeyinde ne kadar etkili olduğunu gösteriyor.

FP8, BF16’ya göre önemli hız artışları sunarken, ölçekleme granülaritesinin (ölçekleme faktörlerinin bir tensör içinde ne kadar ince uygulanacağı) özellikle GEMM işlemlerindeki performansa karmaşık etkiler getirebileceğini belirtmek önemlidir. Daha ince granülarite, sayısal stabilite ve hassasiyet sağlasa da, ek yükler getirebilir ve bu durum ham verimliliği etkileyebilir.

FP8’in BF16’ya göre sağladığı hızların gelişimi, GEMM boyutu ile değerlendirildiğinde açığa çıkmaktadır. K büyüdükçe (yani, daha büyük GEMM işlemleri), FP8’in hız artışı tüm ölçekleme yöntemleri üzerinde genel olarak iyileşiyor. Bunun nedeni, 8 bit hassasiyet kullanmanın getirdiği hesaplama tasarruflarının, ölçekleme faktörleri ile ilgili yüklerin toplam hesaplamayı büyütmesiyle daha belirginleşmesidir.

Donanım yerel çözümler gibi MXFP8, blok ölçekleme yönetiminin yükünü azaltacak şekilde tasarlanmışken, genel FP8 blok ölçekleme uygulamalarında hassasiyet ve ham performans arasındaki takaslar dikkatlice değerlendirilmelidir.

Hız kazanımlarının ötesinde, düşük hassasiyetli eğitimde yakınsama (modelin öğrenme yeteneği ve kaybı azaltma süreci) kritik bir boyuttur. Eğitim kaybı, öğrenme sürecini değerlendirmek açısından değerli bir göstergedir; ancak yalnızca FP8’in verimliliği için tek bir ölçüt değil; sağlam FP8 aşağı yönlü değerlendirme ölçütleri, bir modelin kalitesinin nihai belirleyicileridir.

FP8 benimsenirken, eğitim kaybı eğrisinin, modelin öğrenme sürecinde önemli bir bozulma olmadan yüksek hassasiyetli bir temel olan BF16 ile sıkı şekilde örtüşmesi beklenmektedir. Şekil 2, farklı ölçekleme stratejilerinin BF16 ile karşılaştırmalı eğitim kaybı eğrilerini göstermektedir. Pembenin altında BF16 temelini temsil eder.

FP8 blok bazlı ölçekleme aracılığıyla kaydedilen eğitim kaybı eğrisi, sürekli olarak BF16 ile benzer bir eğri izler. Ancak FP8 per-tensor ölçeklemesi bazen belirgin dalgalanmalar gösterir ve bu durum, granülarite ile ilgili içsel bir takası ortaya koyar. Nitekim, daha kalın granülarite sunan FP8 per-tensor ölçekleme, daha yüksek ham GEMM verimliliği sağlar; bu durum, daha stable bir öğrenme yolculuğu ve daha az sayısal kayıp sunan finer-grained block-wise scaling ile karşılaştırıldığında belirgin bir avantaj sağlamaktadır.

Deneysel Kurulum

Bu yazıdaki tüm deneyler, NVIDIA NeMo Framework 25.04 sürümü kullanılarak gerçekleştirilmiştir. NeMo Framework 25.04, FP8 eğitimine sağlam bir donanım desteği sunar ve NVIDIA Transformer Engine (TE) üzerinden yoğun mimariler için kutudan çıkan tarifler sunar.

H100 GPU’larında mevcut ölçekleme tarifini ve MXFP8 tarifini, yeni NVIDIA DGX B200 mimarisi üzerinde değerlendirdik. Her iki kurguda da, Llama 3 8B, Llama 3 70B, Llama 3.1 405B, Nemotron 15B ve Nemotron 340B gibi çeşitli son teknoloji modelleri tedavi ettik. Her kurgu, FP8’in gerçekte sağladığı hız kazanımını ölçmek için doğrudan BF16 temeli ile karşılaştırıldı.

Mevcut Ölçekleme Tarifinin Performansı

Şekil 3’te, H100 GPU’larında mevcut FP8 ölçekleme tarifinin hız kazançları görünmektedir. Küçük modeller, örneğin Llama3 8B ile karşılaştırıldığında, yaklaşık 1.30x hız artışı sağlanmaktadır.

Bu avantaj, daha büyük mimarilerde daha da belirgin hale gelir. Örneğin, Llama 3 70B modeli 1.43x hız kazanımı elde ederken, test ettiğimiz en büyük model olan Llama 3.1 405B, etkileyici 1.53x hız artışı sağlar.

Bu yükseliş trendi istatistiksel bir merak olmaktan ziyade, FP8 eğitiminde büyük ölçekli dil modelleri için temel bir avantajı yansıtır. Model boyutu ve hesaplama karmaşıklığı arttıkça, azaltılmış hassasiyet hesaplamalarının verimliliği artar.

Bu durum iki yönlüdür: İlk olarak, daha büyük modeller doğal olarak daha fazla матris çarpımı ve veri hareketi içerir; bu durum FP8’in modern donanım üzerindeki daha yüksek verimliliğinden ciddi şekilde faydadır. İkinci olarak, ölçekleme ve dinamik aralık ayarlamalarıyla ilişkili giderler, toplam hesaplama büyüdükçe görece önemsiz hale gelir, bu da FP8’in ham performans faydalarının ön plana çıkmasını sağlar.

MXFP8 Tarifinin Değerlendirilmesi

Şekil 4, DGX B200 GPU’larında MXFP8 tarifinin performansını göstermektedir; bu tarifin farklı model boyutları arasında BF16 karşısında tutarlı bir hız artışı gözlemlenmektedir ve kazanımlar %28 ila %37 arasında değişiklik göstermektedir. Bu mutlak hızlandırma değerleri mevcut ölçekleme tarifinin sağladığıdan kısmen daha düşük olmasına rağmen, bunlar çeşitli modeller arasında tutarlılık ve güvenilirlik gösterir.

8B’den 70B’ye kadar olan parametrelerdeki hız artışındaki azalma, blok bazlı ölçeklemenin model ve donanım özellikleri ile etkileşimini vurgulamaktadır. MXFP8, her 32 bileşenlik bloğa ortak bir ölçek faktörü atadığı için, orta boyutlu modellerde ek bellek erişim yükü getirebilir. Ancak model boyutu arttıkça ve hesaplama hakim hale geldikçe (Nemotron 340B’de görüldüğü gibi), blok bazlı FP8’in verimliliği belirginleşerek gözlemlenen en yüksek hız artışını sağlar.

Bu sonuçlar, NVIDIA Blackwell platformunun yapısal avantajlarını vurgular; bu platform, nesne kabulüdür ve düşük hassasiyet formatları için ve özellikle blok bazlı ölçekleme Yaklaşımları için optimize edilmiştir. Eşit parçalara sahip 32 değerlik bloklarının koordinasyonu, dinamik aralık ve hesaplama verimliliği arasında bir denge sağlarken;mümkün olan en iyi hız ve güvenlik sağlar.

GB200 Grace Blackwell Superchip ile Blackwell Mimarisinin Karşılaştırılması

GB200 ve B200’ün karşılaştırması, Büyük ölçekli AI iş yükleri için belirgin performans kazançlarının mimari entegrasyonu ve sistem tasarımının nasıl somutlaştırılacağına dair dersler sunmaktadır. Her ikisi de NVIDIA Blackwell mimarisine dayansa da, GB200 süperçipi, iki B200 GPU’yu, yüksek bant genişliği sağlayan NVIDIA NVLink ile birleştirerek eşleşmiş bir bellek alanı yaratır.

Şekil 5, GB200 ile B200 arasındaki hız artışını farklı model boyutları ve FP8 tarifleri üzerinden karşılaştırmaktadır. Bu ölçümler NeMo FW 25.04 ile hesaplanmış olup, daha fazla değerlendirme yapılmasıyla değişiklik gösterebilir.

Pratik FP8 Eğitimi ile Başlayın

Tüm bu kıyaslamalardan ortaya çıkan net bir sonuç var: Yoğun modellerde, model ne kadar büyükse, FP8 ile hız artışı o kadar büyük oluyor. Model boyutu arttıkça, matris çarpımlarının (GEMMs) sayısı hızla artmaktadır; bu işlemler, FP8’in azaltılmış hassasiyeti ve daha yüksek verimliliğinden en fazla faydayı sağlamaktadır. Büyük yoğun modellere FP8 ile önemli verimliliği artırmak mümkün.

Bu deneysel sonuçlar, yazının detaylarında ele alınan FP8 ölçekleme tariflerinin belirli güçlü ve zayıf yönlerini yeniden pekiştiriyor ve hem per-tensor hem de MXFP8 yaklaşımlarının BF16’ya göre önemli hız kazanımları ve yakınsama avantajları sunduğunu gösteriyor.

Bu teknikleri denemeye hazır mısınız? FP8 tariflerine göz atarak pratik FP8 eğitim yapılandırmaları ve kodlarıyla başlayabilirsiniz.