Büyük dil modelleri (LLM) yaratma yolculuğu, öngörülemeyen bir aşama olan ön eğitim ile başlar. Son teknolojinin büyük modellerinin ön eğitimi, oldukça güç gerektiren bir süreçtir. Günümüzde popüler olan açık ağırlık modelleri, on milyarlarca ila yüz milyarlarca parametre içerirken, trilyonlarca kelime kullanılarak eğitilmektedir. Modelin zekası, artan parametre sayısı ve eğitim veri seti boyutuyla orantılı olarak artmakta; dolayısıyla, daha gelişmiş ve yetenekli modeller yaratmak için gereken hesaplama gücü de artmaktadır.
Eğitim süreci tamamlandıktan sonra, modelin yetenekleri artırmak için son eğitim aşamasına geçilir. Bir örnek vermek gerekirse, bir işletme, kendi özel veri setlerini kullanarak önceden eğitilmiş bir modeli özelleştirerek, kurumun belirli kullanım alanları için bilgi ve yanıt doğruluğunu artırabilir. Ayrıca, daha uzun bağlam sürelerini desteklemek ve modelin mantık yürütme yeteneklerini artırmak için diğer son eğitim teknikleri de uygulanabilir. Genel olarak, tek bir modelin son eğitim aşaması, günümüzde ön eğitimden daha az hesaplama yoğun olsa da, araştırmacılar yeni potansiyeller keşfettikçe bu gereksinim hızla artmaktadır.
MLPerf Training v5.0 sonuçları
MLPerf Training v5.0, belirli kalite eşiğine ulaşabilmek için bir modelin ne kadar hızlı eğitildiğini ölçen uzun süreli MLPerf Training benchmark serisinin en son versiyonudur. Bu benchmark paketi, LLM ön eğitimi, LLM ince ayarı, metinden görüntü oluşturma, öneri sistemleri, grafik sinir ağları, doğal dil işleme ve nesne tespiti gibi çeşitli alanları kapsayan yedi farklı benchmark içermektedir. Bu son turda, NVIDIA platformu, tüm yedi benchmarkta en hızlı eğitme süresini sağladı.
Benchmark | Eğitim Süresi (dakika) |
LLM Ön Eğitimi (Llama 3.1 405B) | 20.8 |
LLM İnce Ayar (Llama 2 70B-LoRA) | 0.56 |
Metinden Görüntü (Stable Diffusion v2) | 1.04 |
Grafik Sinir Ağı (R-GAT) | 0.84 |
Öneri (DLRM-DCNv2) | 0.7 |
Doğal Dil İşleme (BERT) | 0.3 |
Nesne Tespiti (RetinaNet) | 1.4 |
MLPerf Training v5.0 sonuçları, www.mlcommons.org adresinden 4 Haziran 2025’te alınmıştır.
NVIDIA Blackwell ile LLM Ön Eğitiminde Büyük Bir İyileşme
NVIDIA Blackwell, bir önceki nesil NVIDIA Hopper mimarisine göre birçok mimari yenilik içermektedir. Bu yenilikler, GPU başına hesaplama performansında önemli artışlar sağlarken, NVLink gibi teknolojilerle GPU’lar arasındaki bant genişliğini artırmakta ve NVLink alan boyutunu önemli ölçüde genişletmektedir. Bu, model geliştiricilerin modellerini daha hızlı bir şekilde eğitmesine olanak tanımaktadır.
İleri düzey yenilikler arasında ikinci nesil Transformer Motoru, daha hızlı ve daha geniş NVLink bağlantıları ve daha yüksek bant genişliği ile daha fazla kapasiteye sahip HBM3e bellek bulunmaktadır. Bu mimari yetenekler, NVIDIA yazılım yığınındaki birçok yenilikle desteklenmekte ve GB200 NVL72, Llama 3.1 405B benchmark’ı üzerinde 512 GPU kullanıldığında 2.2 kat daha hızlı eğitme süreleri sunabilmektedir. GB200 NVL72, Llama 3.1 405B Ön Eğitim benchmarkında 1,960 TFLOPS’a kadar eğitim verimliliği sağlamaktadır.
Benchmark | GPU Sayısı | Hopper | Blackwell | Blackwell Hızlanması |
Llama 3.1 405B | 512 | 269.12 dk. | 121.09 dk. | 2.2 kat |
MLPerf Training v5.0 sonuçları, 4 Haziran 2025’te www.mlcommons.org‘dan alınmıştır.
Blackwell ile LLM İnce Ayarında Hız Artışı
Birçok kuruluş, mevcut önceden eğitimli modelleri özelleştirerek belirli görevler veya uygulama alanları için yüksek doğruluk elde etmeyi hedefler. MLPerf Training v5.0, LoRA tekniğini uygulayan bir LLM ince ayar benchmark’ı içermektedir. Hızlı model ince ayarı, kuruluşların özelleştirilmiş modelleri daha çabuk dağıtmasına yardımcı olur ve sonuçta dağıtım süresini kısaltır.
Örneğin, önceki turda sekiz NVIDIA H100 Tensor Core GPU kullanan bir sistemle karşılaştırıldığında, sekiz Blackwell GPU’dan oluşan GB200 NVL72 sistemi, 2.5 kat daha hızlı eğitim süreleri sunmaktadır.
Benchmark | GPU Sayısı | Hopper | Blackwell | Blackwell Hızlanması |
Llama 2 70B LoRA | 8 | 27.93 dk. | 11.14 dk. | 2.51 kat |
MLPerf Training v5.0 sonuçları, 4 Haziran 2025’te www.mlcommons.org‘dan alınmıştır.
Blackwell ile Metinden Görüntüye Hız Artışı
NVIDIA’nın gönderimlerine göre, >Stable Diffusion v2 ön eğitim benchmark’ında, GB200 NVL72 sistemi, H100 Tensor Core GPU kullanılarak gerçekleştirilen önceki turda 2.6 kat daha yüksek performans göstermiştir.
Benchmark | GPU Sayısı | Hopper | Blackwell | Blackwell Hızlanması |
Stable Diffusion v2 | 8 | 33.97 dk. | 12.86 dk. | 2.64 kat |
MLPerf Training v5.0 sonuçları, 4 Haziran 2025’te www.mlcommons.org‘dan alınmıştır.
Sonuç
NVIDIA GB200 NVL72 tabanlı sistemler, Blackwell mimarisi ile desteklenen MLPerf Training v5.0’da olağanüstü performans sergilemiştir. Hopper ile karşılaştırıldığında, 2.6 kat daha fazla performans sunmuş ve yüksek ölçekli uygulamalarda mükemmel verim sağlamıştır. Bu performans artışları, AI modellerinin eğitiminden dağıtım aşamasına geçiş süresini kısaltmaya yardımcı olabilir. Daha fazla hesaplama gücü, daha büyük ve karmaşık taban modellerinin eğitimini mümkün kılarak, daha yetenekli mantıksal modellerin temelini oluşturur.
Bu sonuçları yeniden üretmek için, NVIDIA MLPerf v5.0 gönderimleriyle Llama 2 70B LoRA ince ayar ve Llama 3.1 405B ön eğitimi için Llama 2 70B LoRA ve Llama 3.1 405B benchmark sonuçlarını tekrar gözden geçirip inceleyebilirsiniz.