NVIDIA, TensorRT-LLM’nin artık encoder-decoder model mimarilerini hızlandırdığını duyurdu. TensorRT-LLM, farklı model mimarileri için çıkarım işlemini optimize eden bir açık kaynak kütüphanesidir. Bu kütüphane, aşağıdaki modelleri kapsamaktadır:
- Yalnızca Decodera sahip modeller, örneğin Llama 3.1
- Uzman karışımı (MoE) modelleri, örneğin Mixtral
- Seçimli durum alanı modelleri (SSM), örneğin Mamba
- Görsel-dil ve video-dil uygulamaları içinçoklu modal modeller
Encoder-decoder model desteğinin eklenmesi, TensorRT-LLM’nin yeteneklerini daha da genişleterek, NVIDIA GPU’lar üzerinde çeşitli yaratıcı yapay zeka uygulamaları için yüksek optimizasyonlu çıkarım sunmaktadır.
TensorRT-LLM, NVIDIA TensorRT derin öğrenme derleyicisini kullanmaktadır. Farklı dikkat mekanizmalarının en son optimize edilmiş çekirdeklerini içermektedir. Ayrıca, modelin çalıştırılması için ön ve son işlem adımlarını ve çoklu GPU/çoklu düğüm iletişim ilkelerini basit, açık kaynaklı bir API aracılığıyla sunmaktadır.
Encoder-Decoder Modeller için Destek
The TensorRT-LLM, T5, mT5, Flan-T5, BART, mBART, FairSeq NMT, UL2 ve Flan-UL2 gibi encoder-decoder model aileleri arasındaki ince farklılıkları ele almaktadır. TensorRT-LLM, ortak ve türev bileşenleri soyutlayarak encoder-decoder modelleri için genel destek sağlamaktadır. Ayrıca, bu modeller için tam tensör paralelliği (TP), hat paralelliği (PP) ve ikisinin bir kombinasyonu aracılığıyla çoklu GPU/çoklu düğüm çıkarımını desteklemektedir.
Daha fazla bilgi için, farklı modeller, optimizasyonlar ve çoklu GPU yürütmesi hakkında Encoder-Decoder Model Desteği sayfasına gidebilirsiniz.
Runtime Desteği ve Batching
Encoder-decoder modeller, yalnızca decoder kullanan modellere kıyasla farklı bir çalışma mantığına sahiptir. Genellikle iki motor kullanırlar; birincisi yalnızca bir kez çalıştırılırken, ikincisi otomatik olarak desteksiz bir şekilde daha karmaşık bir anahtar-değer (KV) önbellek yönetimi ve batch yönetimi ile yüksek throughput ve düşük gecikme süreleri sağlamaktadır.
Encoder-decoder mimarileri için in-flight batching’i (IFB, sürekli batching) ve KV cache yönetimini sağlamak amacıyla birkaç önemli uzantı bulunmaktadır:
- Encoder modelleri için (metin, ses veya diğer medyalar) çalışma zamanı desteği, giriş/çıkış tamponlarının kurulumu ve model yürütmesinin dahil edilmesi.
- Decoder’ın kendine ait dikkat önbelleğinin ve encoder’ın çıktısından hesaplanan decoder’ın kesişim dikkati önbelleği için çift sayfalı KV önbellek yönetimi.
- Encoder’dan decoder’a veri geçişinin LLM istek düzeyinde denetlenmesi. Decoder istekleri batched edildiğinde, her isteğin encoder aşaması çıktısının batched edilmeli.
- Encoder ve decoder için bağımsız batching stratejisi. Encoder ve decoder farklı boyut ve hesaplama özelliklerine sahip olabileceğinden, her aşamadaki isteklerin bağımsız ve asenkron olarak batched edilmesi gerekmektedir.
TensorRT-LLM encoder-decoder modelleri, üretim odaklı dağıtımlar için NVIDIA Triton TensorRT-LLM arka planında da desteklenmektedir. NVIDIA Triton Inference Server, yapay zeka çıkarımını kolaylaştıran açık kaynaklı bir çıkarım sunma yazılımıdır.
LoRA Desteği
Düşük sıralı adaptasyon (LoRA), LLM’leri özelleştirmek için kullanılan güçlü bir kaynak-verimli ince ayar tekniğidir. LoRA, tüm model parametrelerini ince ayar sırasında güncellemektense, modelin üzerine küçük eğitilebilir derecelendirme matrisleri ekleyerek, bellek gereksinimlerini ve hesaplama maliyetlerini önemli ölçüde azaltmaktadır.
Bu LoRA adaptörleri, belirli son uygulamalar için özenle ayarlanmış olup, belirli görevlerde model doğruluğunu artırabilmektedir.
TensorRT-LLM BART LoRA desteği, düşük sıralı matrislerin verimli bir şekilde yönetilmesini sağlamak için optimizasyon yeteneklerini kullanmaktadır. Bu durum şu avantajları sunmaktadır:
- Tek bir batch içerisinde birden fazla LoRA adaptörünün verimli bir şekilde sunulması.
- LoRA adaptörlerinin dinamik olarak yüklenmesi ile azaltılmış bellek işgali.
- Mevcut BART model dağıtımları ile sorunsuz entegrasyon.
Sonuç
NVIDIA TensorRT-LLM, farklı mimarilerde LLM’leri optimize etme ve etkin bir şekilde çalıştırma yeteneklerini genişletmeye devam etmektedir. Encoder-decoder modeller için gelecek geliştirmeler arasında, gecikme ve throughput iyileştirmeleri sağlamak amacıyla FP8 quantization yer almaktadır. Üretim dağıtımları için ise, NVIDIA Triton Inference Server bu modelleri sunmak için ideal bir platform sağlamaktadır.
Hızla değer kazanmak isteyen işletmeler, NVIDIA NIM‘i kullanabilir. Bu, NVIDIA ve iş ortakları ekosisteminden popüler modeller için optimize edilmiş bir çıkarım sunan NVIDIA AI Enterprise yazılım platformunun bir parçasıdır.