Günümüzün zorlu AI geliştirici iş yükleri, genellikle masaüstü sistemlerin sağladığından daha fazla hafıza gerektiriyor veya dizüstü bilgisayarlar ya da PC’lerde bulunmayan yazılımlara erişim istiyor. Bu durum, birçok çalışmanın buluta veya veri merkezine taşınmasına yol açıyor.
NVIDIA DGX Spark, bulut örneklerine ve veri merkezi kuyruklarına bir alternatif sunuyor. Blackwell mimarisine sahip olan bu kompakt süper bilgisayar, 1 petaflop FP4 AI hesaplama performansı, 128 GB koherent birleşik sistem hafızası, 273 GB/saat bellek bant genişliği ve NVIDIA AI yazılım yığını ile önceden yüklenmiş olarak geliyor. DGX Spark ile büyük, hesaplama yoğun görevleri buluta ya da veri merkezine gitmeden yerel olarak gerçekleştirebilirsiniz.
DGX Spark’ın hesaplama performansının, büyük hafızasının ve önceden yüklenmiş AI yazılımının ince ayarlama, görüntü üretimi, veri bilimi ve çıkarma iş yüklerini nasıl hızlandırdığını inceleyeceğiz. İşte bazı performans ölçümleri.
DGX Spark ile İnce Ayar İş Yükleri
Önceden eğitilmiş modelleri ayarlamak, AI geliştiricileri için yaygın bir görevdir. DGX Spark’ın bu iş yükündeki performansını göstermek için, farklı metodolojiler kullanarak üç ayarlama görevi gerçekleştirdik: tam ince ayar, LoRA ve QLoRA.
Llama 3.2B modelini tam ince ayar yaparak 82,739.2 token/saniye zirve hızına ulaştık. DGX Spark’ta LoRA kullanarak Llama 3.1 8B modelini ayarlamak 53,657.6 token/saniye hızını yakaladı. QLoRA ile Llama 3.3 70B modelini ayarlamak ise 5,079.4 token/saniye ile sonuçlandı.
İnce ayar işlemleri oldukça hafıza yoğun olduğundan, bu ayarlama görevlerinden hiçbiri 32 GB’lik bir tüketici GPU üzerinde çalıştırılamıyor.
| İnce Ayar Performansı | ||||
| Model | Metod | Arka Uç | Konfigürasyon | Zirve Token/saniye |
| Llama 3.2 3B | Tam ince ayar | PyTorch | Sequence length: 2048 Batch size: 8 Epoch: 1 Steps: 125BF16 |
82,739.20 |
| Llama 3.1 8B | LoRA | PyTorch | Sequence length: 2048 Batch size: 4 Epoch: 1 Steps: 125BF16 |
53,657.60 |
| Llama 3.3 70B | QLoRA | PyTorch | Sequence length: 2048 Batch size: 8 Epoch: 1 Steps: 125FP4 |
5,079.04 |
DGX Spark’ın Görüntü Üretim Yetkinlikleri
Görüntü üretim modelleri, her zaman daha fazla doğruluk, yüksek çözünürlük ve hızlı performans arayışındadır. Yüksek çözünürlüklü görüntüler oluşturmak veya her bir isteme birden fazla görüntü üretmek, daha fazla hafıza ve görüntüleri üretmek için gereken hesaplama gücünü zorlar.
DGX Spark, büyük GPU hafızası ve güçlü hesaplama performansıyla, daha yüksek çözünürlükteki görüntülere ve daha yüksek hassasiyetli modellere çalışmanızı sağlar, böylece daha kaliteli görüntüler sunar. FP4 veri formatı desteği, DGX Spark’ın yüksek çözünürlükte bile görüntüleri hızlı bir şekilde üretmesini sağlar.
Flux.1 12B modelini FP4 hassasiyetinde kullanarak DGX Spark, her 2.6 saniyede bir 1K görüntü üretebilir (aşağıdaki Tablo 2’ye bakın). DGX Spark’ın büyük sistem hafızası, BF16 SDXL 1.0 modeli çalıştırma kapasitesini sağlar ve saatte yedi 1K görüntü üretir.
| Görüntü Üretimi Performansı | ||||
| Model | Hassasiyet | Arka Uç | Konfigürasyon | Görüntü/saniye |
| Flux.1 12B Schnell | FP4 | TensorRT | Çözünürlük: 1024×1024 Denoising adımları: 4 Batch boyutu: 1 |
23 |
| SDXL1.0 | BF16 | TensorRT | Çözünürlük: 1024×1024 Denoising adımları: 50 Batch boyutu: 2 |
7 |
DGX Spark ile Veri Bilimi Kullanımı
DGX Spark, NVIDIA cuML ve cuDF gibi temel CUDA-X kütüphanelerini destekler. NVIDIA cuML, scikit-learn üzerinde makine öğrenimi algoritmalarını GPU’larda sıfır kod değişikliği gerektirmeden hızlandırır.
UMAP ve HDBSCAN gibi hesaplama yoğun makine öğrenimi algoritmaları için DGX Spark, 250 MB’lık veri setlerini saniyeler içinde işleyebilir (aşağıdaki Tablo 3’e bakın). NVIDIA cuDF, ortak pandas veri analizi görevlerini (joinler ve string yöntemler) önemli ölçüde hızlandırır. cuDF pandas işlemleri, on milyonlarca kayıt içeren veri setlerinde sadece birkaç saniyede çalışır.
| Veri Bilimi Performansı | |||
| Kütüphane | Benchmark | Veri Seti Boyutu | Zaman |
| NVIDIA cuML | UMAP | 250 MB | 4 saniye |
| NVIDIA cuML | HDBSCAN | 250 MB | 10 saniye |
| NVIDIA cuDF pandas | Ana veri analizi işlemleri (joinler, string metodları, UDF’ler) | 0.5 ila 5 GB | 11 saniye |
DGX Spark ile Çıkarma İşlemleri
DGX Spark’ın Blackwell GPU’su, FP4 veri formatını destekler; özellikle, NVFP4 veri formatı neredeyse FP8 doğruluğu sağlar (%1’den az bozulma). Bu, daha küçük modellerin doğruluğu düşmeden kullanılmasını sağlar. FP4’ün daha küçük veri ayak izi, performansı da artırıyor. Aşağıdaki Tablo 4, DGX Spark için çıkarım performansı verilerini sağlamaktadır.
DGX Spark, NVFP4, MXFP4 gibi bir dizi 4-bit veri formatını ve TRT-LLM, llama.cpp, vLLM gibi birçok arka ucu destekler. Sistemin sahip olduğu 1 petaflop AI performansı, hızlı istem işleme elde etmesini sağlar. Hızlı istem işleme, kullanıcılar için daha iyi bir deneyim sunar ve son-to-son çıktı hızını artırır.
| Çıkarma Performansı (ISL|OSL= 2048|128, BS=1) | |||||
| Model | Hassasiyet | Arka Uç | İstem işleme hızı (token/saniye) |
Token üretim hızı (token/saniye) |
|
| Qwen3 14B | NVFP4 | TRT-LLM | 5928.95 | 22.71 | |
| GPT-OSS-20B | MXFP4 | llama.cpp | 3670.42 | 82.74 | |
| GPT-OSS-120B | MXFP4 | llama.cpp | 1725.47 | 55.37 | |
| Llama 3.1 8B | NVFP4 | TRT-LLM | 10256.9 | 38.65 | |
| Qwen2.5-VL-7B-Instruct | NVFP4 | TRT-LLM | 65831.77 | 41.71 | |
| Qwen3 235B (çift DGX Spark ile) |
NVFP4 | TRT-LLM | 23477.03 | 11.73 | |
NVFP4: 4-bit kayan nokta formatı, NVIDIA Blackwell GPU mimarisi ile birlikte tanıtılmıştır. MXFP4: Microscaling FP4, Open Compute Project (OCP) tarafından oluşturulmuş bir 4-bit kayan nokta formatıdır. ISL (Girdi Dizisi Uzunluğu): İstemdeki tokenların sayısını ifade eder (öncelikle doldurma tokenları ile bilinir). OSL (Çıktı Dizisi Uzunluğu): Modelin yanıt olarak ürettiği tokenların sayısını ifade eder (çözümleme tokenları olarak bilinir).
İki DGX Spark’ı, ConnectX-7 yongaları ile bağlayarak Qwen3 235B modelini çalıştırmayı da başardık. Bu model, overhead dahil olmak üzere 120 GB’den fazla hafıza kullanır. Genellikle büyük bulut veya veri merkezi sunucularında çalışan böyle modellerin, çift DGX Spark sistemlerinde çalışıyor olması, geliştirici deneyleri için nelerin mümkün olduğunu gösteriyor. Son Tablo 4’teki verilere göre, çift DGX Spark ile token üretim hızı 11.73 token/saniye olmuştur.
Yeni NVFP4 versiyonuna sahip olan NVIDIA Nemotron Nano 2 modeli de DGX Spark’ta iyi bir performans sergiliyor. NVFP4 versiyonu ile, doğrulukta önemli bir kayıp olmaksızın iki kat daha yüksek bir çıktı elde edebilirsiniz. Model kontrol noktalarını Hugging Face üzerinden indirebilirsiniz veya NVIDIA NIM üzerinden de erişim sağlayabilirsiniz.
DGX Spark’ınızı edinin, DGX Spark geliştirici topluluğuna katılın ve AI geliştirme yolculuğunuza bugün başlayın.
















