NVIDIA Dynamo: Düşük Gecikmeli Dağıtık Çıkarım Çerçevesi ile Yapay Zeka Modellerinin Ölçeklendirilmesi

NVIDIA, GTC 2025’te NVIDIA Dynamo’yu Duyurdu

NVIDIA, GTC 2025‘te NVIDIA Dynamo’nun lansmanını gerçekleştirdi. NVIDIA Dynamo, büyük ölçekli dağıtık ortamlarda yaratıcı yapay zeka ve akıl yürütme modellerini dağıtmak için yüksek verimlilikte, düşük gecikmeli açık kaynaklı bir çıkarım sunucu çerçevesidir. Bu çerçeve, açık kaynaklı DeepSeek-R1 modellerini NVIDIA Blackwell üzerinde çalıştırırken sunulan istek sayısını %30’a kadar artırmaktadır. NVIDIA Dynamo, PyTorch, SGLang, NVIDIA TensorRT-LLM ve vLLM gibi açık kaynak araçlarıyla uyumlu olup, geliştiriciler ve yapay zeka araştırmacılarına yapay zekayı hızlandırmaları için destek sağlamaktadır.

NVIDIA Dynamo’nun Yenilikçi Özellikleri

NVIDIA Dynamo, aşağıdaki önemli yenilikleri sunmaktadır:

  • Dağıtık GPU’larda sunucu aşamalarının ayrılması sayesinde her GPU başına verimliliği artırma.
  • Talep değişikliklerine göre dinamik GPU programlaması yaparak performansı optimize etme.
  • KV önbellek yeniden hesaplama maliyetlerini azaltmak için LLM farkındalığına sahip istek yönlendirmesi.
  • GPU’lar arasındaki veri transferini hızlandırarak çıkarım yanıt sürelerini azaltma.
  • Farklı bellek hiyerarşilerinde KV önbellek dışa aktarma ile sistem verimliliğini artırma.

Geliştiriciler için Hızlı Erişim

Bugünden itibaren, NVIDIA Dynamo, geliştiriciler için ai-dynamo/dynamo GitHub reposunda erişime açılmıştır. Hızlı üretim süresi ve kurumsal düzeyde güvenlik, destek ve istikrar arayan işletmeler için NVIDIA Dynamo, NVIDIA NIM mikro hizmetleri ile birlikte sunulacaktır ve bu hizmetler NVIDIA AI Enterprise paketinin bir parçasıdır.

Açıklama: NVIDIA Dynamo’nun Mimarisi

Bu yazı, NVIDIA Dynamo‘nun mimarisi ve ana bileşenlerini açıklamakta; bu yapıların nasıl maliyet etkin bir şekilde olduğu ve yaratıcı yapay zeka modellerinin tek bir GPU’dan binlerce GPU’ya kadar ölçeklenmesine yardımcı olduğunu vurgulamaktadır.

Dağıtık Ortamlarda Yapay Zeka Çıkarımının Hızlandırılması

Yapay zeka çıkarımları, geliştiricilerin yeni uygulamalar oluşturmasını sağlayarak, akıl yürütme modellerini iş akışlarına entegre etmesine olanak tanır. Ancak, bu aynı zamanda önemli bir tekrarlayan maliyet anlamına gelir ve modellerini maliyet etkin bir şekilde ölçeklendirmeyi hedefleyenler için büyük zorluklar oluşturur. NVIDIA, 2018’de NVIDIA Triton Çıkarım Sunucusu’nu ilk tanıttığında, amacı yapay zeka inovasyonunu hızlandırmak ve çıkarım maliyetlerini düşürmekti.

Triton, her tür çerçeveye özel çıkarım sunumunu tek bir platformda birleştirerek, çıkarım maliyetlerini önemli ölçüde azaltmayı başarmışıdır. Bugün, bazı dünya çapındaki önde gelen kuruluşlar tarafından üretimde kullanılan Triton, yenilikler ve gelişmiş yöntemlerle desteklenmiş bir açık kaynak çıkarım sunucusu olmuştur.

NVIDIA Dynamo ile Gelişen Çıkarım Süreçleri

NVIDIA Dynamo, Triton’un başarısından faydalanarak, çoklu düğüm dağıtık ortamlarda yaratıcı yapay zeka modellerini sunmak için tasarlanmış yeni bir modüler mimari sunmaktadır. NVIDIA Dynamo, çıkarım iş yüklerinin GPU düğümleri arasında sorunsuz bir şekilde ölçeklenmesini ve dinamik GPU işçi tahsisini sağlarken, kullanıcı taleplerine etkin bir şekilde yanıt vermektedir.

NVIDIA Dynamo, NVIDIA TensorRT-LLM, vLLM ve SGLang gibi ana LLM çerçevelerini desteklemektedir. Ayrıca, çıkarım süreçlerini optimize eden çeşitli yöntemler içermektedir. Bu yöntemlerden biri, performansı artırmak için çıkarım aşamalarını farklı GPU cihazlarına ayıran dağıtılmış hizmet modelidir.

Performans Artışı ile Birlikte Değişen Çıkarım Süreçleri

Geleneksel LLM dağıtımları, her aşamanın farklı kaynak gereksinimleri olduğu göz önüne alındığında, her iki aşamanın da aynı GPU veya düğümde yer alması nedeniyle verimliliği azaltabilmektedir. NVIDIA Dynamo, dağıtılmış hizmet ile bu sorunları çözmekte ve her aşamayı optimize ederek kaynakları daha etkili kullanmaktadır. Bunun sonucunda, NVIDIA Dynamo, DeepSeek-R1 modelini NVIDIA GB200 NVL72 üzerinde çalıştırırken, sunulan istek sayısını %30’a kadar artırmayı başarmıştır.

Two diagrams side-by-side. On the left: ‘Traditional Serving’ shows where the input for multi-GPU is sent to prefill and the first token is then sent to the Compute Bound stage while the remaining tokens are sent to decode and channeled to Memory bound stage for KV Cache. On the right: ‘Disaggregated Serving’ shows where the input is sent to prefill and the first token is then partitioned out while the remaining tokens are transferred as KV cache to another group of GPUs and then decoded.
Şekil 1. Dağıtılmış hizmet ile ön doldurma ve çözümleme aşamalarını farklı GPU’lara ayırarak performansı optimize etme.

NVIDIA Dynamo’nun yeni özellikleri sayesinde, hem kullanıcı taleplerini daha etkili bir şekilde karşılamak hem de özellikle uzun girdi dizileriyle çalışırken kaynak kullanımını optimize etmek mümkün hale gelmiştir.

NVIDIA Dynamo Planlayıcı: GPU Kaynaklarını Optimize Etme

Büyük ölçekli dağınık ve ayrık hizmet çıkarım sistemlerinde, GPU kaynaklarını etkili bir şekilde yönetmek, verimliliği artırmak için kritik öneme sahiptir. NVIDIA Dynamo Planlayıcı, bu sistemde anahtar kapasite ölçümlerini sürekli olarak izler ve gelen taleplerin nasıl karşılanacağı konusunda en iyi kararların verilmesine yardımcı olur. Bu sayede işlem yükleri değiştiğinde bile, GPU kaynakları verimli bir biçimde tahsis edilebilir.

Şekil 4. GPU Planlayıcı, GPU kapasite ölçümlerini analiz ederek talepleri nasıl karşılayacağına karar verir.

NVIDIA Dynamo Akıllı Yönlendirici: KV Önbellek Hesaplama Maliyetlerini Düşürme

NVIDIA Dynamo Akıllı Yönlendirici, gelen istekleri değerlendirirken KV önbelleğinin daha önce oluşturulmuş bölümlerini yeniden kullanarak hesaplama sürelerini azaltır. KV önbelleğinin verimli bir şekilde yönetilmesi, özellikle sık tekrar eden talepler için oldukça faydalıdır. Akıllı Yönlendirici, veri akışını takip ederek, daha önce yapılmış hesaplamaları tekrarlamak yerine mevcut önbellekleri kullanarak sistem performansını artırır.

Şekil 5. NVIDIA Dynamo Akıllı Yönlendirici, KV önbelleklerini yeniden hesaplamayı önleyerek modelin yanıt verme süresini hızlandırır.

NVIDIA Bulut KB Önbellek Yöneticisi: Maliyet Etkin Depolama Çözümleri

NVIDIA Dynamo KV Önbellek Yöneticisi, daha önce oluşturulmuş KV önbellek bloklarının daha maliyet etkin bellek ve depolama çözümlerine dışa aktarılmasına olanak tanır. Bu özellik, AI çıkarım ekiplerinin geçmiş verilere kolayca erişmesini ve böylece hesaplama maliyetlerini düşürmesini sağlar. KV önbellek yöneticisi, özellikle büyük dağıtık sistemlerde etkili bir şekilde çalışarak, hızlı veri erişimini sağlar.

Şekil 6. NVIDIA Dynamo KV Önbellek Yöneticisi, KV önbelleğini daha maliyet etkin depolama çözümleriyle yönetir.

Sonuç ve Davet

NVIDIA Dynamo, Triton’un başarıları üzerine inşa edilmiş yeni bir modüler mimari, dağıtık çıkarım yetenekleri ve ayrık hizmet desteği sunmaktadır. Geliştiriciler, yeni yaratıcı yapay zeka modellerini bugün itibarıyla ai-dynamo/dynamo GitHub reposundan başlatabilirler. Ayrıca, yapay zeka çıkarım geliştiricileri ve araştırmacıları, NVIDIA’nın resmi sunucuları olan NVIDIA Dynamo Discord Sunucusu‘na katılarak daha fazla katkıda bulunabilirler.

Kaynak

Nvdia Blog

Exit mobile version