SON DAKİKA

Nvdia

NVIDIA DGX Spark’ın Performansı ile Yoğun AI Görevleri Nasıl Gerçekleştirilir?

Günümüzün zorlu AI geliştirici iş yükleri, genellikle masaüstü sistemlerin sağladığından daha fazla hafıza gerektiriyor veya dizüstü bilgisayarlar ya da PC’lerde bulunmayan yazılımlara erişim istiyor. Bu durum, birçok çalışmanın buluta veya veri merkezine taşınmasına yol açıyor.

NVIDIA DGX Spark, bulut örneklerine ve veri merkezi kuyruklarına bir alternatif sunuyor. Blackwell mimarisine sahip olan bu kompakt süper bilgisayar, 1 petaflop FP4 AI hesaplama performansı, 128 GB koherent birleşik sistem hafızası, 273 GB/saat bellek bant genişliği ve NVIDIA AI yazılım yığını ile önceden yüklenmiş olarak geliyor. DGX Spark ile büyük, hesaplama yoğun görevleri buluta ya da veri merkezine gitmeden yerel olarak gerçekleştirebilirsiniz.

DGX Spark’ın hesaplama performansının, büyük hafızasının ve önceden yüklenmiş AI yazılımının ince ayarlama, görüntü üretimi, veri bilimi ve çıkarma iş yüklerini nasıl hızlandırdığını inceleyeceğiz. İşte bazı performans ölçümleri.

DGX Spark ile İnce Ayar İş Yükleri

Önceden eğitilmiş modelleri ayarlamak, AI geliştiricileri için yaygın bir görevdir. DGX Spark’ın bu iş yükündeki performansını göstermek için, farklı metodolojiler kullanarak üç ayarlama görevi gerçekleştirdik: tam ince ayar, LoRA ve QLoRA.

Llama 3.2B modelini tam ince ayar yaparak 82,739.2 token/saniye zirve hızına ulaştık. DGX Spark’ta LoRA kullanarak Llama 3.1 8B modelini ayarlamak 53,657.6 token/saniye hızını yakaladı. QLoRA ile Llama 3.3 70B modelini ayarlamak ise 5,079.4 token/saniye ile sonuçlandı.

İnce ayar işlemleri oldukça hafıza yoğun olduğundan, bu ayarlama görevlerinden hiçbiri 32 GB’lik bir tüketici GPU üzerinde çalıştırılamıyor.

İnce Ayar Performansı
Model Metod Arka Uç Konfigürasyon Zirve Token/saniye
Llama 3.2 3B

Tam ince ayar PyTorch Sequence length: 2048
Batch size: 8
Epoch: 1
Steps: 125BF16
82,739.20
Llama 3.1 8B LoRA PyTorch Sequence length: 2048
Batch size: 4
Epoch: 1
Steps: 125BF16
53,657.60
Llama 3.3 70B QLoRA PyTorch Sequence length: 2048
Batch size: 8
Epoch: 1
Steps: 125FP4
5,079.04
Tablo 1. İnce Ayar Performansı

DGX Spark’ın Görüntü Üretim Yetkinlikleri

Görüntü üretim modelleri, her zaman daha fazla doğruluk, yüksek çözünürlük ve hızlı performans arayışındadır. Yüksek çözünürlüklü görüntüler oluşturmak veya her bir isteme birden fazla görüntü üretmek, daha fazla hafıza ve görüntüleri üretmek için gereken hesaplama gücünü zorlar.

DGX Spark, büyük GPU hafızası ve güçlü hesaplama performansıyla, daha yüksek çözünürlükteki görüntülere ve daha yüksek hassasiyetli modellere çalışmanızı sağlar, böylece daha kaliteli görüntüler sunar. FP4 veri formatı desteği, DGX Spark’ın yüksek çözünürlükte bile görüntüleri hızlı bir şekilde üretmesini sağlar.

Flux.1 12B modelini FP4 hassasiyetinde kullanarak DGX Spark, her 2.6 saniyede bir 1K görüntü üretebilir (aşağıdaki Tablo 2’ye bakın). DGX Spark’ın büyük sistem hafızası, BF16 SDXL 1.0 modeli çalıştırma kapasitesini sağlar ve saatte yedi 1K görüntü üretir.

Görüntü Üretimi Performansı
Model Hassasiyet Arka Uç Konfigürasyon Görüntü/saniye
Flux.1 12B Schnell FP4 TensorRT Çözünürlük: 1024×1024 
Denoising adımları: 4 
Batch boyutu: 1
23
SDXL1.0 BF16 TensorRT Çözünürlük: 1024×1024
Denoising adımları: 50
Batch boyutu: 2
7
Tablo 2. Görüntü Üretimi Performansı

DGX Spark ile Veri Bilimi Kullanımı

DGX Spark, NVIDIA cuML ve cuDF gibi temel CUDA-X kütüphanelerini destekler. NVIDIA cuML, scikit-learn üzerinde makine öğrenimi algoritmalarını GPU’larda sıfır kod değişikliği gerektirmeden hızlandırır.

UMAP ve HDBSCAN gibi hesaplama yoğun makine öğrenimi algoritmaları için DGX Spark, 250 MB’lık veri setlerini saniyeler içinde işleyebilir (aşağıdaki Tablo 3’e bakın). NVIDIA cuDF, ortak pandas veri analizi görevlerini (joinler ve string yöntemler) önemli ölçüde hızlandırır. cuDF pandas işlemleri, on milyonlarca kayıt içeren veri setlerinde sadece birkaç saniyede çalışır.

Veri Bilimi Performansı
Kütüphane Benchmark Veri Seti Boyutu Zaman
NVIDIA cuML UMAP 250 MB 4 saniye
NVIDIA cuML HDBSCAN 250 MB 10 saniye
NVIDIA cuDF pandas Ana veri analizi işlemleri (joinler, string metodları, UDF’ler) 0.5 ila 5 GB 11 saniye
Tablo 3. Veri Bilimi Performansı

DGX Spark ile Çıkarma İşlemleri

DGX Spark’ın Blackwell GPU’su, FP4 veri formatını destekler; özellikle, NVFP4 veri formatı neredeyse FP8 doğruluğu sağlar (%1’den az bozulma). Bu, daha küçük modellerin doğruluğu düşmeden kullanılmasını sağlar. FP4’ün daha küçük veri ayak izi, performansı da artırıyor. Aşağıdaki Tablo 4, DGX Spark için çıkarım performansı verilerini sağlamaktadır.

DGX Spark, NVFP4, MXFP4 gibi bir dizi 4-bit veri formatını ve TRT-LLM, llama.cpp, vLLM gibi birçok arka ucu destekler. Sistemin sahip olduğu 1 petaflop AI performansı, hızlı istem işleme elde etmesini sağlar. Hızlı istem işleme, kullanıcılar için daha iyi bir deneyim sunar ve son-to-son çıktı hızını artırır.

Çıkarma Performansı (ISL|OSL= 2048|128, BS=1)
Model Hassasiyet Arka Uç İstem işleme hızı
(token/saniye)
Token üretim hızı
(token/saniye)
Qwen3 14B NVFP4 TRT-LLM 5928.95 22.71
GPT-OSS-20B MXFP4 llama.cpp 3670.42 82.74
GPT-OSS-120B MXFP4 llama.cpp 1725.47 55.37
Llama 3.1 8B NVFP4 TRT-LLM 10256.9 38.65
Qwen2.5-VL-7B-Instruct NVFP4 TRT-LLM 65831.77 41.71
Qwen3 235B
(çift DGX Spark ile)
NVFP4 TRT-LLM 23477.03 11.73
Tablo 4. Çıkarma Performansı

NVFP4: 4-bit kayan nokta formatı, NVIDIA Blackwell GPU mimarisi ile birlikte tanıtılmıştır. MXFP4: Microscaling FP4, Open Compute Project (OCP) tarafından oluşturulmuş bir 4-bit kayan nokta formatıdır. ISL (Girdi Dizisi Uzunluğu): İstemdeki tokenların sayısını ifade eder (öncelikle doldurma tokenları ile bilinir). OSL (Çıktı Dizisi Uzunluğu): Modelin yanıt olarak ürettiği tokenların sayısını ifade eder (çözümleme tokenları olarak bilinir).

İki DGX Spark’ı, ConnectX-7 yongaları ile bağlayarak Qwen3 235B modelini çalıştırmayı da başardık. Bu model, overhead dahil olmak üzere 120 GB’den fazla hafıza kullanır. Genellikle büyük bulut veya veri merkezi sunucularında çalışan böyle modellerin, çift DGX Spark sistemlerinde çalışıyor olması, geliştirici deneyleri için nelerin mümkün olduğunu gösteriyor. Son Tablo 4’teki verilere göre, çift DGX Spark ile token üretim hızı 11.73 token/saniye olmuştur.

Yeni NVFP4 versiyonuna sahip olan NVIDIA Nemotron Nano 2 modeli de DGX Spark’ta iyi bir performans sergiliyor. NVFP4 versiyonu ile, doğrulukta önemli bir kayıp olmaksızın iki kat daha yüksek bir çıktı elde edebilirsiniz. Model kontrol noktalarını Hugging Face üzerinden indirebilirsiniz veya NVIDIA NIM üzerinden de erişim sağlayabilirsiniz.

DGX Spark’ınızı edinin, DGX Spark geliştirici topluluğuna katılın ve AI geliştirme yolculuğunuza bugün başlayın.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri