SON DAKİKA

Nvdia

Microsoft Azure AI Foundry’de NVIDIA TensorRT-LLM ile Llama Modeli Performansını Artırma

Microsoft ve NVIDIA’dan Önemli Performans İyileştirmeleri

Microsoft, NVIDIA ile iş birliği içinde, Azure AI Foundry platformunda Meta Llama model ailesi için devrim niteliğinde performans iyileştirmeleri duyurdu. Bu yenilikler, NVIDIA TensorRT-LLM optimizasyonları sayesinde, model çıktılarının kalitesini koruyarak, önemli ölçüde daha yüksek verimlilik, azaltılmış gecikme süresi ve maliyet etkinliği sunuyor.

Artan Verimlilik ve Daha Hızlı Token Üretimi

Bu gelişmeler sayesinde, Azure AI Foundry müşterileri, Llama 3.3 70B ve Llama 3.1 70B modelleri için %45, Llama 3.1 8B modeli için ise %34 oranında önemli verimlilik artışları elde edebiliyor. Sunucusuz dağıtım (Model-as-a-Service) gibi seçeneklerle uygulanan bu iyileştirmeler, hızlı uygulamalar olan sohbet botları, sanal asistanlar ve otomatik müşteri destek sistemleri için daha duyarlı ve verimli sonuçlar sağlıyor. Bu da, LLM destekli uygulamaların token başına maliyetini önemli ölçüde düşürüyor.

Azure AI Foundry’nin model katalogu, optimize edilmiş Llama modellerine erişimi basit hale getirirken, altyapı yönetiminin karmaşasını ortadan kaldırıyor. Geliştiriciler, sunucusuz API’ler aracılığıyla modelleri dilediği gibi dağıtabilir ve ölçeklendirebilir; bu sayede yüksek ölçekli kullanım senaryolarını ön maliyetler olmadan hızlı bir şekilde devreye alabilirler.

Yüksek Güvenlik ve Kolay Dağıtım Seçenekleri

Azure’ın kurumsal düzeyde güvenliği, müşteri verilerinin API kullanımı sırasında gizli kalmasını ve korunmasını sağlıyor. NVIDIA ile Azure AI Foundry‘nin birleşimi, geliştiricilerin ölçeklenebilir bir şekilde çalışmasını sağlarken, dağıtım maliyetlerini de azaltıyor.

Microsoft ve NVIDIA’nın derin teknik iş birliği, Llama modellerinin performansını optimize etmeye odaklanmış durumda. Bu çalışmalarla, NVIDIA TensorRT-LLM yazılımı, Azure AI Foundry’deki bu modellerin hizmet verilmesinde ana arka uç çözümü olarak entegre edildi.

İlk olarak Llama 3.1 70B Instruct, Llama 3.3 70B Instruct ve Llama 3.1 8B modelleriyle başlanan çalışmalar, kapsamlı profil çıkarımı ve ortak mühendislik sayesinde birçok optimizasyon fırsatı sundu. Elde edilen sonuçlar, 70B modellerinde %45 ve 8B modelinde %34 oranında verim artışı sağladı.

Temel İyileştirmeler ve Yeni Özellikler

Bu iyileştirmeler arasında, GEMM Swish-Gated Linear Unit (SwiGLU) aktivasyon eklentisi (–gemm_swiglu_plugin fp8) de bulunuyor. Bu eklenti, iki Genel Matris Çarpımını (GEMM) birleştirerek, hesaplama verimliliğini büyük ölçüde artırıyor. Reduce Fusion (–reduce_fusion enable) optimizasyonu ise, ResidualAdd ve LayerNorm işlemlerini tek bir çekirdek altında birleştirerek gecikme ve genel performansı artırıyor.

Ayrıca, Kullanıcı Belleği (–user_buffer) özelliği, TensorRT-LLM v0.16 ile tanıtıldı ve yerel bellekten paylaşılan bellek kopyalamalarını ortadan kaldırarak, büyük ölçekli Llama modellerinde iletişim performansını önemli ölçüde artırıyor.

Tüm bu iyileştirmeler, daha hızlı token üretimi ve azaltılmış gecikme süresi sağlarken, müşteri için token başına maliyetleri düşürüyor. Aynı zamanda, kaynak kullanımı optimize edilerek bellek verimliliği artırıldı.

Bu önemli performans kazanımlarına rağmen, yanıt kalitesi ve doğruluğu korunuyor; böylece optimizasyonlar, model çıktı bütünlüğünü zedelemiyor.

Geliştiricilere Açık Fırsatlar

NVIDIA TensorRT-LLM tarafından desteklenen bu yenilikler, tüm geliştirici topluluğuna açık. Geliştiriciler, bu optimizasyonlardan faydalanarak, daha hızlı ve maliyet etkin yapay zeka çıkarımı elde edebilirler. Azure AI Foundry‘deki Llama model API’lerini deneyerek bu performans iyileştirmelerini bizzat yaşayabilirsiniz.

Kendi modellerini özelleştirmek ve dağıtmak isteyen geliştiriciler için Azure, NVIDIA hızlandırmalı bilişimi kullanmanızı sağlayan esnek seçenekler sunuyor. Modellerinizi Azure VM’leri veya Azure Kubernetes Service (AKS) üzerinde dağıtarak benzer performans kazanımları elde edebilirsiniz.

Ayrıca, NVIDIA AI Enterprise, Azure Marketplace’te mevcut olup, TensorRT-LLM’yi kapsamlı bir yapay zeka araçları ve çerçeveler özeti içinde sunarak kurumsal düzeyde destek ve optimizasyonlar sağlıyor.

Microsoft ve NVIDIA’nın, NVIDIA NIM ile Azure AI Foundry entegrasyonunu duyurduğu NVIDIA GTC 2025‘te, TensorRT-LLM model oluşturucuların kendi modellerini özelleştirmesine olanak tanırken, NVIDIA NIM, önceden optimize edilmiş yapay zeka modelleri ve mikro hizmetler sunuyor.

İster Azure AI Foundry’nin tamamen yönetilen MaaS (Model-as-a-Service) teklifini seçin, ister kendi modellerinizi dağıtın; tam yığın NVIDIA hızlandırmalı bilişim platformu, daha verimli ve duyarlı yapay zeka uygulamaları geliştirmenizi sağlıyor.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri