SON DAKİKA

Nvdia

NVIDIA Jetson AGX Thor ile 7 Kat Daha Hızlı ve Akıllı Kenar Modelleri Oluşturun

NVIDIA yazılım ekosisteminin en belirgin güçlerinden biri, sürekli optimizasyona olan bağlılığıdır. Ağustos ayında tanıtılan NVIDIA Jetson AGX Thor, NVIDIA Jetson AGX Orin’e kıyasla %500’e kadar daha fazla generatif AI performansı sunuyor. Yayın sonrası yapılan yazılım güncellemeleri sayesinde, Jetson Thor artık 7 kat artan generatif AI verimliliği sağlıyor.

Daha önce NVIDIA Jetson Orin ve NVIDIA Jetson AGX Xavier üzerindeki uygulamalarıyla gösterilen bu kanıtlanmış yaklaşım, geliştiricilerin Llama ve DeepSeek gibi modellere bu iyileştirmelerden yararlanmasına olanak tanıyor. Benzer faydaların gelecekteki model sürümlerinde de bekleniyor. Düzenli yazılım güncellemelerine ek olarak, NVIDIA, piyasaya sürülmelerinin üzerinden sadece birkaç gün geçtikten sonra önde gelen modeller için destek sağlıyor. Bu, geliştiricilerin en son AI modelleriyle erken dönemde denemeler yapabilmesine olanak tanıyor.

Jetson Thor platformu, yeni NVFP4 gibi birçok önemli kuantizasyon formatını destekliyor. Bu, çıkarımı daha da optimize etmeye yardımcı oluyor. Ayrıca, spekülatif kodlama gibi yeni teknikler de destekleniyor ve bu da kenar çözümlerindeki Gen AI iş yüklerini hızlandırmanın ek bir yolu olarak öne çıkıyor.

Sürekli Yazılım Optimizasyonu

Son vLLM konteyneri sürümüyle, Jetson Thor, aynı model ve aynı kuantizasyon altında, Ağustos ayındaki lansman gününe göre 3.5 kat daha fazla performans sunuyor. Tablo 1, Ağustos ayında yapılan lansmanda Llama 3.3 70B ve DeepSeek R1 70B modellerinin çıktı tokeni/saniye değerlerini, Eylül 2025 tarihindeki en son test edilen rakamlarla karşılaştırıyor.

Aile Model Jetson AGX Thor
Ağustos 2025 (çıktı tokeni/saniye)
Jetson AGX Thor
Eylül 2025 (çıktı tokeni/saniye)
Jetson AGX Thor
lansman gününe göre hız artışı
Llama Llama 3.3 70B 41.5 12.64 3.3
DeepSeek DeepSeek R1 70B 40.29 11.5 3.5

Tablo 1. Llama 3.3 ve DeepSeek R1 üzerindeki çıktı tokeni/saniye değerleri, lansman gününe ve en son benchmark’lara göre karşılaştırma 

Bu benchmark’lar için yapılandırma: Dizi Uzunluğu: 2048, Çıktı Dizi Uzunluğu: 128; Maksimum Eşzamanlılık: 8; Güç Modu: MAXN

Jetson Thor, artık vLLM konteynerlerinde Eagle 3 spekülatif kodlamasını destekliyor, bu da generatif AI modellerinin performansını artırıyor. Örneğin, spekülatif kodlama ile Llama 3.3 70B üzerinde 88.62 çıktı tokeni/saniye ile 7 kat hız artışı sağlanabiliyor.

Yazılım optimizasyonu ve spekülatif kodlama artışını gösteren bir grafik.
Şekil 1. Yazılım optimizasyonundaki %3.5 artış ve spekülatif kodlamadaki %7 artış

En Son Modelleri İlk Gün Desteğiyle Çalıştırın

Geliştiriciler, Jetson Thor ile en yeni generatif AI modellerini ilk günden başlayarak kenarda çalıştırabilir. Örneğin, gpt-oss, llamacpp/ollama üzerinde Jetson AGX Thor lansman günü desteklenmiştir. Benzer şekilde, birçok NVIDIA Nemotron modeli için de haftanın ilk günü desteği bulunmaktadır.

Jetson Thor ile Maksimum Gen AI Performansı Elde Edin

Jetson Thor, kenarda generatif AI için güçlü bir platformdur, ancak onun tam potansiyelini kullanmak için doğru teknikler gereklidir. Bu bölüm, platformdan en iyi şekilde yararlanmak için bir rehber niteliğindedir. Kuantizasyon ve spekülatif kodlama gibi iki strateji boyunca ilerleyeceğiz ve sonunda Jetson Thor’da modellerinizi nasıl benchmark edeceğinizi gösteren bir eğitime geçeceğiz. Bu, belirli kullanım durumunuza en uygun model ve yapılandırmayı seçmek için net bir yol haritası sunacak.

Kuantizasyon: Model Boyutunu Küçültmek ve Çıkarım Süresini Hızlandırmak

Kuantizasyon, bir modelin verilerinin (ağırlık ve aktivasyonlar) sayısal hassasiyetini azaltma sürecidir. Bunu bir sayıyı temsil etmek için daha az ondalık basamak kullanmak gibi düşünebilirsiniz—tam olarak aynı değil, ama yeterince yakın ve depolamak ile hesaplamak için çok daha verimli. Genellikle standart 16-bit formatlardan (FP16 veya BF16 gibi) daha düşük bit formatlara, yani 8-bit veya 4-bit’e geçiş yapılır.

Bu, size iki büyük avantaj sağlar:

  1. Daha Küçük Bellek İzi
    Bu, cihazda daha büyük modellerin yüklenmesini sağlamak için anahtardır. Her bir parametre için gereken byte sayısını azaltarak, aksi takdirde aşırı büyük olacak modellere yer açmış olursunuz.

    Bir kural olarak, 70 milyar parametreli bir modelin ağırlıklarının boyutu yaklaşık olarak:

    • Floating Point 16 (FP16) ile 140 GB ve Thor’un 128 GB belleğine sığmaz.
    • Floating Point 8 (FP8) ile 70 GB, yerinde rahatça sığar.
    • 4-bit ile 35 GB, birden fazla büyük model için alan sağlar.
  2. Daha Hızlı Bellek Erişimi
    Daha küçük ağırlıklar, bellekten işlem çekirdeklerine taşınacak daha az byte olduğu anlamına gelir. Bu, gecikme süresini doğrudan azaltır ve bu, zamanlama açısından kritik olan kenar uygulamalarında önemlidir.

Jetson Thor üzerinde en önemli iki formatı ele alalım.

FP8

FP8, optimizasyonun neredeyse kayıpsız ilk adımı için gidilecek yol. 70B modelinin 16-bit ağırlıkları, etkinlikler ve KV önbelleğini hesaba kattığınızda Jetson Thor belleği için çok büyük. FP8, ağırlığın boyutunu yarıya indirerek, aynı modelin cihazda yüklenip çalıştırılmasını pratik hale getirir. Uygun şekilde kalibre edildiğinde, FP8’in doğruluğu FP16 temel alınan değere oldukça yakındır (sıklıkla %1’den daha az bir düşüşle). Bu da onu, sohbet sırası ve genel iş yükleri için güvenli bir başlangıç noktası haline getirir, ancak matematik veya kod üretimi gibi hassas görevler ek ince ayar gerektirebilir.

W4A16: 4-bit Ağırlıklar ve 16-bit Aktivasyonlar

W4A16, statik model ağırlıklarını ultra kompakt 4-bit’e kuantize ederken, durumdaki dinamik hesaplamaları (aktivasyonları) daha yüksek hassasiyet olan 16-bit’te tutarak kenardaki dev gigantic modelleri açığa çıkarır. Bu karşıtlık, 175B’dan fazla parametresi olan modelleri tek bir Jetson Thor üzerinde çalıştırmayı mümkün kılar ve aktivasyonlar için alan bırakır. İki adet 70B model gibi birden fazla büyük modeli aynı anda hizmet etmek, önceki Jetson nesilleri için büyük bir zorluktu.

Hangi formatı kullanmalısınız?

Önerimiz basit: W4A16 ile başlayın. Bu genellikle en yüksek çıkarım hızlarını ve en düşük bellek kullanımını sunar. Eğer test ettiğiniz kuantize model göreviniz için yeterli kalitedeyse, o formatta devam edin.

Göreviniz daha karmaşık ise (örneğin, ince akıl yürütme veya kod üretimi gibi) ve W4A16’nın doğruluğu yeterli değilse, FP8’e geçin. Hızlıdır, bellek kullanımını düşük tutar ve çoğu kenar kullanım durumu için fazlasıyla yeterli kalite sunar.

Spekülatif Kodlama: Aynı Zamanlı ve Hızlı Çıkarım için Tasarı Kodlama Yaklaşımı

Kuantizasyon formatınızı seçtikten sonra, bir sonraki büyük performans artırıcı spekülatif kodlamadır. Bu teknik, çıkarımı hızlandırmak için iki model kullanır: küçük ve hızlı bir “taslak” model ile büyük ve hassas bir “hedef” model.

İşte nasıl çalıştığı:

  1. Taslak model, hızlı bir şekilde bir dizi aday token üretir (gelecek ne olacak tahmini).
  2. Hedef model, tüm öbeği tek bir geçişte doğrular; bu da bir seferde bir token üretmek yerine hızlı bir doğrulama sağlar.

Bu “taslak ve doğrula” süreci, her döngüde birden fazla token üreterek son çıktının, sadece hedef modelin üreteceği çıktıyla aynı olmasını garanti eder. Başarı oranınız, taslak tokenlerin kabul oranıdır; yüksek bir oran, significant gecikme kazançları sağlar, düşük bir oran ise ek yük getirebilir, bu nedenle çalışma yüklerinizi yansıtan istemlerle test etmek önemlidir. En iyi iyileştirme aracınız, taslak modelin seçimidir; en iyisi, hedef modelin mimarisiyle benzer bir modelle başlamaktır ve özel alanlar için bir özelleştirilmiş taslak model ayarlamayı düşünmek, kabul oranıyla maksimum kazancı elde etmenizi sağlar.

Deneylerimizde, EAGLE-3 spekülatif kodlamanın en iyi hız artışını sağladığını tespit ettik. Llama 3.3 70B (W4A16) üzerindeki benchmark’larda, bu özellik %250 performans artışı sağladı; throughput’u 6.27’den 16.19 token/saniye artırdı. Bu, ShareGPT veri seti kullanılarak test edildi, ancak her zaman kendi verilerinizle performansınızı doğrulamalısınız.

Kuantizasyon ve Spekülatif Kodlamayı Bir Araya Getirmek

Bu tekniklerin bir araya geldiği yer gerçek sihirdir. EAGLE-3 için mükemmel destek sunan vLLM’yı kullandık. İşte spekülatif kodlama etkinleştirilmiş Llama 3.3 w4a16 modelini hizmet vermek için kullandığımız örnek bir komut:

vllm serve "RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16" --trust_remote_code -- --speculative-config '{"method":"eagle3","model":"yuhuili/EAGLE3-LLaMA3.3-Instruct-70B","num_speculative_tokens":5}'

NVIDIA, Jetson Thor’u destekleyen ve aylık olarak en son iyileştirmelerle güncellenen bağımsız bir vLLM konteyneri yayınlıyor, bu da işinizi kolaylaştırıyor.

Model kalitesi ve çıkarım performansı arasındaki en iyi dengeyi bulmak için adım adım izleyebileceğiniz bir rehber:

  1. Kalite Temelini Belirleyin. Optimize etmeden önce, modelinizi en yüksek olası hassasiyette (1800 GB için FP16 veya eğer model çok büyükse FP8 yeterlidir) yükleyin ve görevlerinin doğru bir şekilde yerine getirildiğinden emin olun.
  2. Kuantizasyon ile Optimize Edin. Ağırlık hassasiyetini kademeli olarak azaltın (örneğin, W4A16’ya), her adımda doğruluğu test edin. Kalite gereksinimlerinizi karşılamadığınız noktada durun.
  3. Gerçekle Karşılaştırın. Son ayarınızı, yüksek eşzamanlılık, büyük bağlam pencereleri veya uzun çıktı dizileri gibi iş yüklerinizi yansıtan bir performans benchmark’ı ile doğrulayın.

Seçtiğiniz model yeterince hızlı değilse, daha küçük birine geçmeyi tekrar edin. Bu performans benchmark’larını nasıl çalıştıracağınızı görmek için Jetson AI Lab’daki pratik eğitimimizi takip edin.

Artık Jetson Thor’da generatif AI model performansınızı güvenle artırabilirsiniz. Bugün kendi Jetson AGX Thor Geliştirici Kitinizi alın ve yolculuğunuza başlamak için en son NVIDIA JetPack 7’yi indirin.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri