SON DAKİKA

Nvdia

“NVIDIA GPU’larda Yüksek Performans İçin Llama 3.2 Tam Yığın Optimizasyonları”

Meta, yeni Llama 3.2 serisi görsel dil modellerini (VLM) tanıttı. Bu serideki modeller, 11 milyar ve 90 milyar parametreli varyantlar sunuyor. Çok modlu olan bu modeller, hem metin hem de görüntü girdilerini destekliyor. Ayrıca, Meta, text-only (sadece metin) küçük dil modeli (SLM) varyantlarını da 1 milyar ve 3 milyar parametre ile piyasaya sürdü. NVIDIA, Llama 3.2 model serisini, dünya çapında milyonlarca GPU’da yüksek performans ve maliyet etkinliği sağlamak için optimize etti. Bu, en güçlü veri merkezinden bulut GPU’lara kadar kullanılarak yerel NVIDIA RTX iş istasyonları ve düşük güç tüketimli kenar cihazlarıyla da (NVIDIA Jetson) mümkün olmaktadır.

Llama 3.2 VLM’leri, 128K metin token’ına kadar uzun bağlam uzunluklarını desteklemekte ve 1120 x 1120 piksel çözünürlüğünde tek bir görüntü girişi alabilmektedir. Düşük gecikme ile yüksek verimlilik sağlamak için NVIDIA platformu, teknolojik yığınların her katmanında optimize edilmiştir.

Teknik Gelişmeler ve Optimizasyonlar

Buna ek olarak, Llama 3.2 SLM’leri de milyonlarca NVIDIA RTX PC ve iş istasyonunda iyi çalışacak şekilde optimize edilmiştir. Ayrıca, kenar cihazlarında yerel dağıtım için de optimizasyonlar yapılmıştır. Kullanıcılar için daha fazla bilgi için Kenardan Buluta Hızlandırılmış Llama 3.2 Dağıtımı başlıklı makaleyi inceleyebilirler.

Bu yazıda, Llama 3.2 modellerinin yüksek verimlilik ve düşük gecikme ile sunulmasını sağlayan optimize süreçlerin detayları paylaşılacaktır.

Hızlandırılmış Llama 3.2 AI Çıktı Performansı

Llama 3.2’nin 11B ve 90B modellerinin her biri, metin çözücü ile birlikte bir görsel kodlayıcı içermektedir. Görsel bilgi, NVIDIA TensorRT kütüphanesi kullanılarak yüksek performanslı çıkarım için optimize edilmiştir. Metin çözücü ise NVIDIA TensorRT-LLM kütüphanesi ile optimize edilmiştir.

Görsel kodlayıcıdan gelen bilgi, Llama metin çözücüsü ile çapraz dikkat mekanizması kullanılarak birleştirilmiştir. Bu sayede, Llama 3.2 VLM’leri, metin girişiyle bağlam içinde görsel akıl yürütmeyi ve anlayışı dikkate alarak metin üretimi gerçekleştirebilmektedir.

Tahmin Süreçlerinde Üst Düzey Performans

TensorRT, görsel kodlayıcıyı BF16 veri formatında desteklemektedir. TensorRT-LLM ise metin çözücüsünü hem FP16 hem de BF16 formatlarında destekleyerek optimize etmiştir. Meta tarafından yayımlanan resmi reçetede BF16 metin çözücü kullanılmaktadır. Performansı daha da artırmak için NVIDIA, özelleştirilmiş FP8 sonrası eğitimde kuantizasyon (PTQ) reçetesi geliştirmiştir. Bu, NVIDIA Hopper mimarisi tarafından sağlanan dördüncü nesil FP8 Tensor Core’ları kullanarak gerçekleştirilmiştir.

Bu reçete, TensorRT Model Optimizer kütüphanesi aracılığıyla erişilebilir olup, Llama 3.2’nin daha yüksek verimlilikte çalışmasına olanak tanır. Ayrıca, çeşitli referansların yer aldığı ölçümlerle aynı doğruluğu sağlarken daha düşük gecikme sunarak geliştiricilerin maliyet etkin bir şekilde modeli çalıştırmasına olanak tanımaktadır.

Yüksek Verimlilik ve Düşük Gecikme Sağlama

Tablo 1, 8 NVIDIA H200 Tensor Core GPU üzerinde maksimum verimlilik performansını, girdi ve çıktı dizi uzunlukları ve tek bir görüntü girişinin maksimum çözünürlüğü olan 1120 x 1120 piksel ile göstermektedir. Llama 3.2 90B modelini çalıştıran bir sistemle (NVIDIA HGX H200 platformu), her biri 141 GB hızlı HBM3e belleğe sahip sekiz NVIDIA H200 Tensor Core GPU kullanılmıştır. Bu, GPU’lar arasında 900 GB/s GPU’dan GPU’ya bant genişliği sunar.

Maksimum Verimlilik Performansı –Çıktı Token/Saniye
Sekiz NVIDIA H200 Tensor Core GPU
Girdi | Çıktı Dizi Uzunlukları | Görüntü Boyutu 8,000 | 2,000 | 1120×1120 20,000 | 2,000 | 1120×1120 60,000 | 2,000 | 1120×1120
BF16 Kodlayıcı ile FP8 Çözümleyici 2,646 1,417 480
Tablo 1. NVIDIA iç ölçüm verileri ile maksimum verimlilik performansı

Tablo 2, maksimum gecikme performansını aynı giriş ve çıkış dizi uzunlukları ile gösterir.

Minimum Gecikme Performansı – Çıktı Token/Saniye
Sekiz NVIDIA H200 Tensor Core GPU
Girdi | Çıktı Dizi Uzunlukları | Görüntü Boyutu 8,000 | 2,000 | 1120×1120 20,000 | 2,000 | 1120×1120 60,000 | 2,000 | 1120×1120
BF16 Kodlayıcı ile FP8 Çözümleyici 64 63 55
Tablo 2. NVIDIA iç ölçüm verileri ile minimum gecikme performansı

Sonuçlar gösteriyor ki, NVIDIA H200 GPU’ları ve TensorRT optimize edilmiş yazılım, Llama 3.2 90B VLM’de hem gecikme hem de verimlilik açısından olağanüstü performans sunmaktadır.

GeForce RTX 4090 ile Çıktı Performansı

Windows dağıtımları için NVIDIA, Llama 3.2 SLM’lerinin etkili çalışabilmesi için ONNX Runtime Generative API ve DirectML arka planını optimize etti. Performans ölçümleri, NGC katalogundaki Llama 3.2 3B Instruct modelinin kuantize edilmiş versiyonu kullanılarak gerçekleştirilmektedir. Bu model, AWQ INT4 formatında AutoAWQ ile kuantize edilmiştir ve ONNX’a ONNX Runtime Generative API kullanılarak dönüştürülmüştür.

Maksimum Verimlilik Performansı – Çıktı Token/Saniye
NVIDIA GeForce RTX 4090 GPU’ları
Girdi | Çıktı Dizi Uzunlukları 100 | 100 2,000 | 100 4,000 | 100
Onnx-GenAI Runtime ile DirectML, BS=1 253 203 165
Onnx-GenAI Runtime ile DirectML, BS=4 615 374 251
Tablo 3. NVIDIA iç ölçüm verileri ile maksimum verimlilik performansı

Bu ölçümler, performans açısından GeForce RTX 4090 GPU’ları ile elde edilen sonuçları göstermektedir.

Farklı Platformlardaki Llama 3.2 Performansı

NVIDIA hızlandırılmış bilgisayarlama platformları ile Llama 3.2 modellerini kullanarak uygulamalarınızı güçlendirebilirsiniz. Yüksek performanslı Llama 3.2 modelleri, veri merkezi, bulut ve yerel iş istasyonlarında en iyi performansı sağlar. Hızla değer elde etmek isteyen işletmeler, NVIDIA TensorRT ile optimize edilmiş NVIDIA NIM servisini kullanacaklardır. Bu, NVIDIA AI Enterprise yazılım platformunun bir parçasıdır ve Llama 3.2 ve diğer NVIDIA ile iş ortaklarından gelen modellerin çıktı işlemleri için optimizasyonlar sunmaktadır.

Teşekkürler

Bu gönderinin desteklenmesinde yer alan George Yuan, Alex Settle ve Chenjie Luo’ya teşekkür ederiz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri