“NVIDIA TensorRT: Windows 11 Üzerinde Optimize Edilmiş AI İleri Düzey İnferans Kütüphanesi”

Yapay zeka (YZ) uygulamaları, Windows işletim sisteminde yaratıcılık, oyun ve verimlilik uygulamalarında hızla yaygınlaşıyor. Geliştiriciler, bir masaüstü, dizüstü veya iş istasyonunda YZ uygulamalarını hızlandırmak için pek çok çerçeve ile karşılaşıyor. İşe yarayan performansı maksimuma çıkarmak için donanım spesifik kütüphaneler mi yoksa CPU, GPU ve NPU’lar üzerinde dağıtımı basitleştiren çapraz satıcı çerçeveler mi seçileceğine dair bir karar vermeleri gerekiyor. Performans ve uyumluluk arasındaki doğru dengeyi sağlamak geliştiriciler için kritik bir öneme sahip.

Bugün, bu zorluklarla başa çıkmak amacıyla NVIDIA’nın RTX için TensorRT’sini duyuruyoruz. Bu yeni çözüm, Windows 11 üzerinde, Microsoft’un yeni tanıttığı YZ çıkarım çerçevesi olan Windows ML ile birlikte kullanıma sunuluyor. Bu iki teknoloji, geliştiricilere, çeşitlilik gösteren donanımlar üzerinde sorunsuz bir dağıtım sağlayan standart bir API aracılığıyla NVIDIA optimize edilmiş hızlandırmalar sunuyor.

A block diagram showing Windows ML inference stack along with TensorRT for RTX as the default execution provider for NVIDIA RTX GPUs. — *Şekil 1. TensorRT için RTX, Windows ML çıkarım yığını içinde.Foundry Local, Microsoft tarafından optimize edilmiş popüler modellerin bir koleksiyonudur.*

TensorRT Nedir?

TensorRT for RTX, Windows için özel olarak geliştirilmiş bir çıkarım kütüphanesidir. Önceki NVIDIA TensorRT Çıkarım kütüphanesinin veri merkezi GPU’ları için gösterdiği güçlü performansı temel alarak, bu yeni sürüm, NVIDIA RTX GPU’ları için %50’den fazla performans artışı sağlamaktadır. Ayrıca, FP4 gibi farklı nicemleme türlerini destekleyerek, FLUX-1.dev gibi yeni nesil yaratıcı YZ modellerinin tüketici GPU’larına sığmasını sağlıyor.

Önemli bir avantajı, önceden derlenmiş çıkarım motorlarının gerekli olmamasıdır; bu motorlar hedef GPU’da saniyeler içinde oluşturulabiliyor. Bu SKU özel motorlar, donanım uyumlu motorlara göre ek %20 performans artışı sunabiliyor. Kütüphane şimdi 200 MB‘dan daha hafif bir yapıya sahip ve Windows ML kullanılırken uygulamanın içinde önceden paketlenmesi gerekmiyor; çünkü Windows ML, gerekli kütüphaneleri arka planda otomatik olarak indiriyor.

A bar graph showing speedups of TensorRT for RTX vs DirectML on NVIDIA RTX 5090 GPU. — *Şekil 2. NVIDIA RTX 5090’da performans ölçümü. TensorRT for RTX, PC YZ iş yükleri için DirectML’e kıyasla kayda değer bir hız artırımı sunuyor.*

Geliştiriciler, NVIDIA RTX GPU’ları üzerinde FP4 ve FP8 hesaplamalarının yerel hızlandırmasını kullanarak, daha yüksek verimlilik ve throughput elde edebilmekte.

A bar graph showing FP16, FP8, and FP4 throughput of FLUX model using TensorRT for RTX. — *Şekil 3. TensorRT for RTX, difüzyon modelleri için FP8 ve FP4 GEMM’lerini kullanarak throughput’u artırıyor. FP16 boru hattı düşük VRAM modunda çalıştırılmıştır.*

TensorRT for RTX şu anda Windows ML kamu önizlemesinde bulunmaktadır. Ayrıca, bağımsız bir kütüphane olarak developer.nvidia.com adresinden Haziran ayında da erişilebilir olacaktır.

Modellerin Derlenmesi

TensorRT for RTX çıkarım kütüphanesi, yalnızca RTX GPU’ları için optimize edilmiş sinir ağlarını iyileştiren bir just-in-time (JIT) derleme süreci kullanıyor. Bu süreç son kullanıcı cihazlarında yalnızca birkaç saniye sürmektedir. Günümüzde, bu kütüphane CNN’ler, ses, difüzyon ve dönüşüm modellerini desteklemektedir.

A block diagram showing two stages of graph compilation in TensorRT for RTX. — *Şekil 4. TensorRT for RTX, iki aşamada çalışır: donanımdan bağımsız AOT ve cihaz spesifik JIT.*

AOT derleme aşaması

Donanımdan bağımsız AOT aşaması tamamen bir CPU üzerinde gerçekleştirilir. Bu aşama, grafik optimizasyonları gerçekleştirir ve ağırlıkları isteğe bağlı olarak hariç tutulabilecek bir ara motor oluşturur. Bu ara motor, farklı GPU’lara ve işletim sistemlerine uyumludur, böylece geliştiriciler herhangi bir RTX GPU’sunda donanıma optimize edilmiş çıkarım motorları oluşturabilirler.

Bu, “bir kez oluştur, her NVIDIA GPU’da dağıt” yaklaşımını destekler ve geliştirme ve dağıtım iş akışlarını kolaylaştırır. Bu süreç, 100 MB‘dan daha az bir kütüphane boyutu gerektirir ve tipik olarak 15 saniye içinde tamamlanır. Geliştiriciler, AOT aşamasını çevrimdışı olarak çalıştırıp ara motorları uygulama ile paketleyebilir veya AOT kütüphanesini uygulama ile birlikte göndererek hedef cihazlarda çalıştırabilirler.

Bu set, SD2.1, SD3, SDXL, FLUX, ResNet, Mobilenet, DenseNet, Bert, Llama, Phi, VGG, T5, Inception, EfficientNet ve daha fazlası dahil olmak üzere özel ve açık kaynak modellerden oluşur. AOT aşamasının, herhangi bir verilen ağ için yalnızca bir kez çalıştırılması gerekir.

JIT derleme aşaması

Bu JIT derleme aşamasında, ara motor hedef GPU için optimize edilmiş bir son yürütülebilir motor haline dönüştürülür. NVIDIA CUDA programlama modelinin tüm yeteneklerinden faydalanarak, GPU mimarileri üzerinden maksimum performansı elde eder. JIT süreci tipik olarak birkaç saniye sürer ve derlenmiş çekirdekler cihazda önbelleğe alınarak sonraki çağrılarda hemen devreye girer. AOT aşaması gibi, JIT kütüphanesi de 100 MB altında hafif bir yapıya sahiptir ve böylece kaynakların verimli bir şekilde kullanılmasını sağlar.

A chart showing JIT time in seconds measured for 800+ models. — Şekil 6. TensorRT-RTX JIT derleme süreleri 100’den fazla PC YZ iş yükü için 5 saniyenin altında.

Geliştirici İş Akışlarını Optimize Etmek

TensorRT for RTX, hızlı bir şekilde performanslı motorlar üretmenin yanı sıra, Windows uygulamalarındaki YZ deneyimini artıracak benzersiz yetenekler de sunuyor.

Difüzyon modellerinde, TensorRT for RTX, şekil boyutunda herhangi bir kısıtlama olmaksızın yazıdan resme iş akışlarını yönetebilir. Uygulama geliştiricilerinin, optimizasyon profillerinde önceden sabit boyut aralıklarını tanımlamak zorunda kalmadan, JIT aşaması, son kullanıcı tarafından talep edilen herhangi bir şekli otomatik olarak yönetebilir.

Bu, JIT kütüphanesinin, dinamik şekiller için varsayılan bir çekirdek uygulaması ile birlikte gelmesinden kaynaklanır. Bir görüntü oluşturma uygulamasında, kullanıcılar daha tatmin edici kalite ve kavramsal doğruluk için daha fazla görüntü oluşturmak isteyebilir. Kullanıcı daha fazla görüntü oluşturmaya devam ederken, JIT çalışma süresi, kullanıcının istediği belirli şekil boyutlarına hızla uyum sağlar ve arka planda performanslı çekirdekler üretmeye başlar. Böylece, çıkarım performansı, bir veya iki iterasyondan sonra %15’e kadar artar; çünkü performanslı çekirdekler arka planda varsayılan çekirdekleri otomatik olarak değiştirir.

TensorRT for RTX ayrıca, aynı uygulama içinde birden fazla model arasında paylaşılan ayarlanabilir bir çalışma zamanı çekirdek önbelleği sunar. Bu önbellek, farklı modellerdeki benzer iş yükleri için çekirdek üretimini hızlandırır. Ayrıca, uygulama yeniden başlatıldığında neredeyse anında çekirdek üretimi sağlar. Geliştiriciler, önbelleği diskte nerede depolayacakları ve uygulama veya kütüphane güncellemeleri sırasında nasıl yönetecekleri konusunda seçim yapabilirler.

TensorRT for RTX, FP32, FP16, BF16, FP8, INT8, FP4 ve INT4 gibi geniş bir kesinlik yelpazesini destekler ve böylece farklı kullanım senaryoları için uygundur. Nicemli INT8, tüm NVIDIA RTX GPU’larında, FP8 sadece NVIDIA Ampere ve üzeri GPU’larda, FP4 ise NVIDIA Blackwell GPU’larında desteklenir. INT4 optimizasyonları, yalnızca ağırlıkları içeren nicemleme ile etkinleştirilmiştir. Tüm nicemleme teknikleri, TensorRT Model Optimizer ile kolayca kullanılabilir. TensorRT for RTX kütüphanesi, yeni nesil veri türlerini NVIDIA RTX GPU’larında ürünleştirmek için en hızlı yolu sunar.

Ayrıca, grafik gibi diğer kaynak yoğun iş yükleriyle eş zamanlı olarak çalışabilir.

Sonuç

NVIDIA, Microsoft Build’de, NVIDIA RTX GPU’lar için özel bir çıkarım dağıtım çözümü ve Windows ML desteği olan TensorRT for RTX’i duyurmaktan heyecan duyuyor. 200 MB‘lık hafif boyutu ile bu kütüphane, inşa sürelerini azaltarak, günümüzdeki popüler çözümler üzerine %50’den fazla bir süre performansı artışı sağlıyor. CNNS, difüzyonlar, ses ve dönüşüm modelleri için PC uygulamalarında hızlandırma sağlamak amacıyla Windows ML aracılığıyla bir yürütme sağlayıcısı olarak veya doğrudan bağımsız bir kütüphane olarak kullanılabilir.

Windows ML, geliştiricilere otomatik olarak NVIDIA’ya özgü hızlandırmalara erişim sağlayan standart bir API sunuyorken, ek kontrol isteyen geliştiriciler doğrudan kütüphaneyi entegre edebilir.

Windows ML önizleme sürümü, TensorRT for RTX EP ile birlikte Microsoft Windows ML üzerinden erişilebilir olacaktır. TensorRT for RTX SDK’sı ise Haziran ayında genel olarak developer.nvidia.com adresinden indirilebilir.

Microsoft Build etkinliğine katılacak geliştiriciler, TensorRT ile RTX AI PC’lerde YZ’yi Süper Şarj Etme başlıklı oturumumuzu 20 Mayıs Salı günü 11:45 PDT veya 21 Mayıs Çarşamba günü 10:45 PDT’de ziyaret edebilirler.

SON DAKİKA