Yapay zeka (YZ) tabanlı uygulamalardaki patlama, hem geliştiricilerin dikkatli bir şekilde keskin performans sunmalarını, hem de operasyonel karmaşıklığı ve maliyetleri yönetmelerini gerektiren eşsiz bir talep yarattı. NVIDIA, YZ altyapısını yeniden tanımlayarak, geliştiricileri tam yığın yeniliklerle desteklemeye yönelik çalışmalara imza atıyor.
Yüksek Verimlilik, Düşük Gecikme İnovasyonları
Altı yıl önce, NVIDIA, yüksek verimlilik ve düşük gecikme gerektiren üretim uygulamaları için özel bir YZ inference sunucusu geliştirmeye karar verdi. O dönemde, birçok geliştirici, karmaşık ve çerçeveye özgü sunucularda sıkışıp kalmıştı. Bu durum, hem operasyonel maliyetleri artırıyor, hem de hizmet düzeyi anlaşmalarını (SLA) karşılamakta zorluk çıkarıyordu.
Bunu aşmak için NVIDIA, her türlü YZ çerçevesinden modelleri sunabilen açık kaynak bir platform olan NVIDIA Triton Inference Server’ı geliştirerek, çerçeveye özgü sunucuları birleştirdi. Triton, YZ inference dağıtımını sadeleştirerek, YZ tahmin kapasitesini artırdı. Bugün, içerik oluşturma ve müşteri hizmetleri gibi çok sayıda alanda öncü kuruluşlar tarafından etkili bir şekilde kullanılmaktadır.
Bunlara ek olarak, NVIDIA, güçlü ve özelleştirilebilir araçlar arayan geliştiriciler için geniş bir YZ inference çözümleri ekosistemi sunmaktadır. NVIDIA TensorRT, ince optimizasyonları mümkün kılan yüksek performanslı derin öğrenme inference kütüphanesiyle dikkat çekiyor. NVIDIA NIM mikro hizmetleri, YZ modellerini bulut, veri merkezleri veya çalışma istasyonları üzerinde dağıtmak için esnek bir çerçeve sağlıyor.
YZ Inference İçin Optimizasyonlar
Inference, bugün yüksek performanslı altyapı ve etkili yazılımların bir araya gelmesini gerektiren bir sorundur. Model boyutları büyüdükçe ve kullanıcı sayıları arttıkça gecikme kısıtlamaları da daha sıkı hale geliyor. İnovasyon anlayışında önemli bir gelişme olan inference zamanı ölçeklendirme ile, model performansını artırmak için daha fazla hesaplama kullanılıyor.
Bu trendler, aynı altyapı üzerinde teslimat performansını her zaman artırmanın önemini vurgulamaktadır. Model paralelliği, karışık hassasiyetle eğitim, budama, quantizasyon ve veri ön işleme optimizasyonu gibi yerleşik yöntemler, en son teknolojik gelişmelerle birleştirildiğinde, geliştiricilerin hız, ölçeklenebilirlik ve maliyet etkinliği açısından çarpıcı kazanımlar elde etmelerini sağlıyor.
TensorRT-LLM kütüphanesi, büyük dil modellerinin (LLM) inference performansını hızlandıran birçok en son özelliği içeriyor. Aşağıda bunlar detaylandırılmıştır.
Önceden Doldurma ve KV Önbellek Optimizasyonları
- Anahtar-Değer (KV) Önbellek Erken Yeniden Kullanım: Sistem istemlerini kullanıcılar arasında yeniden kullanarak, bu özellik zamanında ilk token’i alma süresini (TTFT) %500’e kadar hızlandırır. Esnek KV blok boyutlandırma ve verimli elden çıkarma protokolleri ile bellek yönetimi sağlanarak, çoklu kullanıcı ortamlarında daha hızlı yanıt süreleri elde edilir.
- Parçalı Ön Doldurma: Parçalı ön doldurma, bu aşamayı daha küçük görevlere ayırarak GPU kullanımını artırır ve gecikmeyi düşürür. Kullanıcı taleplerindeki dalgalanmalara rağmen bu yenilik, dağıtımı basitleştirir ve tutarlı performans sağlar.
- Çoklu Dönüşümlü Etkileşimlerin Süper Hızlandırılması: NVIDIA GH200 Superchip mimarisi, KV önbellek dışarı yüklemelerini etkinleştirerek, Llama modelleriyle %200’e kadar TTFT iyileştirmesi sağlar ve yüksek verimliliği korur.
Çözümleme Optimizasyonu
- Uzun Diziler İçin Çoklu Blok Dikkati: Uzun girdi dizilerinin zorluklarını aşarak, TensorRT-LLM çoklu blok dikkati, görevleri akış çoklu işlemcileri (SM’ler) arasında dağıtarak GPU kullanımını maksimize eder. Bu teknik, sistem verimliliğini %300’ün üzerinde artırarak, daha büyük bağlam uzunlukları sunar.
- Hızlandırılmış Çözümleme için Spekülatif Çözümleme: Daha büyük bir hedef modelin yanında daha küçük bir taslak model kullanarak, spekülatif çözümleme %360’a kadar bir iyileştirme sağlar. Bu yaklaşım, yüksek hızda ve yüksek doğrulukta model çıktılarını oluşturmanın önünü açar.
- Medusa ile Spekülatif Çözümleme: Medusa spekülatif çözümleme algoritması TensorRT-LLM optimizasyonları içinde yer alıyor. Birden fazla ardışık token’i tahmin ederek, Llama 3.1 modellerinin çıktılarını %190’a kadar hızlandırarak yanıt sürelerini kısaltır.
Çoklu GPU Inference
- MultiShot İletişim Protokolü: Geleneksel Ring AllReduce işlemleri, çoklu GPU senaryolarında darboğaz haline gelebiliyor. TensorRT-LLM MultiShot ile iletişim adımları, GPU sayısından bağımsız olarak sadece ikiye indirilir. Bu yenilik, AllReduce hızlarını %300’e kadar artırarak düşük gecikmeli inferences sürecini verimli hale getirir.
- Paket Paralelliğiyle Yüksek Eşzamanlılık Verimliliği: Paralellik teknikleri, GPU’ların hızlı ve verimli veri transfer edebilmesini gerektirir. NVIDIA H200 Tensor Core GPU’ları üzerinde paket paralelliği, Llama 3.1 405B için %150 ve Llama 2 70B için 1.2x hızlanma sağladı.
- Büyük NVLink Alanları: NVIDIA GH200 NVL32 sistemi, 32 NVIDIA GH200 Grace Hopper süper çipi ile bağlantılı bir NVLink Switch sistemi ile güçlendirilmiştir. TensorRT-LLM iyileştirmeleri ile, bu mimari Llama modelleri için %300’e kadar daha hızlı TTFT sağlar.
Quantizasyon ve Düşük Hassasiyette Hesaplama
- NVIDIA TensorRT Model Optimizasyonu ile Hassasiyet ve Performans:NVIDIA TensorRT Model Optimizörü içindeki özel FP8 quantizasyon reçetesi, doğruluk kaybetmeden %44 daha yüksek verimlilik sağlar.
- Uçtan Uca Tam Yığın Optimizasyonu: NVIDIA TensorRT kütüphaneleri ve FP8 Tensor Core yenilikleri, veri merkezi GPU’larından kenar sistemlerine kadar geniş bir cihaz yelpazesi üzerinde yüksek performansı garanti eder.
Bu özellikler ve Triton ile TensorRT-LLM içindeki diğer yeniliklerle birlikte, geliştiriciler artık LLM’leri daha hızlı ve verimli bir şekilde dağıtıyor. Bu, işletmelerin müşteri hizmetlerini geliştirme, karmaşık süreçleri otomate etme ve verilerinden daha derin içgörüler elde etme fırsatlarını artırıyor.
Inference Performansını Değerlendirme
Dünya standartlarında inference performansı sunmak, çipler, sistemler ve yazılımlar dahil olmak üzere bir tam teknoloji yığını gerektiriyor. Bu, verimliliği artırmak, token başına enerji tüketimini azaltmak ve maliyetleri minimize etmek için kritik bir adımdır.
MLPerf Inference, bu performansın ölçülmesinde önemli bir referansasıdır. Standart koşullar altında inference verimliliğini ölçmek için kullanılan bu benchmark, gözden geçirilmiş sonuçlarla güvenilirlik kazanır. Sürekli güncellenen bu benchmark, YZ’deki yenilikleri yansıtır.
Son MLPerf Inference turunda, NVIDIA Blackwell tanıtıldı ve Llama 2 70B benchmark’ında NVIDIA H100 Tensor Core GPU’ya göre %400 daha fazla performans sundu. Bu, Blackwell GPU’nun temelinde yatan birçok mimari yenilikle sağlandı.
Ayrıca, NVIDIA yazılım yığını, FP4 hassasiyet desteği gibi Blackwell’in yeni yeteneklerinden faydalanmak üzere yeniden mühendislik çalışmalarıyla geliştirildi. NVIDIA H200 Tensor Core GPU, veri merkezi kategorisindeki her benchmark’ta olağanüstü başarılar elde etti. Bu, yeni eklenen Mixtral 8x7B karışım uzmanları (MoE) LLM, Llama 2 70B ve Stable Diffusion XL testlerinde de görüldü. Yazılım gelişmeleri sayesinde, Hopper mimarisi önceki tura göre %27 daha fazla inferans performansı sağladı.
NVIDIA Triton Inference Server, sekiz H200 GPU ile çalışan bir sistemde, Llama 2 70B benchmark’ında, NVIDIA bare-metal sunumuna karşı hemen hemen aynı performansı gösterdi. Bu, işletmelerin hem özellik zengini hem de üretim odaklı bir YZ inference sunucusu ile maksimum başarıyı yakalayabileceğini göstermektedir.
YZ Inference’ın Geleceği: Yeni Trendler ve Teknolojiler
YZ inference ortamı, bir dizi çarpıcı yenilik ve gelişen teknolojilerle hızla evrim geçiriyor. Modeller, veri merkezi ölçeğindeki hesaplama artışlarıyla daha akıllı hale gelirken, GPT-MoE 1.8T gibi seyrek karışım uzmanları mimarileri, hem model zekasını artırıyor hem de hesaplama verimliliğini iyileştiriyor. Bu daha büyük modeller, değilse bile GPU’ların bireysel olarak çok daha yetenekli hale gelmesini gerektiriyor.
NVIDIA Blackwell mimarisi, nesil YZ inference’ı destekleyecek biçimde tasarlanmıştır. Her Blackwell GPU’su, ikinci nesil Transformer Engine ve beşinci nesil Tensor Cores ile birlikte FP4 kullanmaktadır. Daha düşük hassasiyet veri formatları, hesaplama verimliliğini artırırken bellek gereksinimlerini de düşürmektedir.
Aynı zamanda, en talepkar modellerin hızlı ve gerçek zamanlı oranlarda hizmet vermesi için birçok gücün birlikte çalışması gerekiyor. NVIDIA GB200 NVL72 raf ölçeği çözümü, 72 GPU’luk bir NVLink alanı oluşturarak tek bir devasa GPU gibi hareket ediyor.
Yeni bir ölçeklendirme yasası olan test zamanı hesaplaması, daha karmaşık görevler için yanıt kalitesini ve doğruluğu artırmanın bir yolu olarak karşımıza çıkmaktadır. Bu yeni paradigmanın, karmaşık matematik ve program kodu üretimi gibi alanlarda yararlanılan nedenlerle oldukça faydalı olduğu düşünülmektedir.
Yapay genel zekanın yolculuğu, veri merkezi hesaplama performansındaki ilerlemelere dayanıyor. Ön eğitim, son eğitim ve test zamanı ölçeklendirmeleri, üst düzey bir altyapıyı ve ustalıkla hazırlanmış yazılımları gerektiriyor. NVIDIA platformu, sürekli bir yenilik ritmi ile ilerleyerek YZ’nin sınırlarını zorlamaya devam ediyor.
Başlayın
YZ Inference ile Nasıl Başlanır başlıklı kaynağı gözden geçirin, NVIDIA YZ Inference platformu hakkında bilgi sahibi olun ve en son YZ inference performans güncellemelerini takip edin.
NVIDIA NIM mikro hizmetlerini hızlı bir şekilde dağıtma yöntemleri üzerine bir demo izleyin veya Generative AI Dağıtımı için Basit Bir Kılavuz makalesini okuyun. TensorRT, TensorRT-LLM ve TensorRT Model Optimizörü kütüphanelerinin optimizasyonları, NVIDIA NIM mikro hizmetleri aracılığıyla üretim odaklı dağıtımlar için bir araya getirilmektedir.