NVIDIA, GTC 2025’te NVIDIA Dynamo’yu Duyurdu
NVIDIA, GTC 2025‘te NVIDIA Dynamo’nun lansmanını gerçekleştirdi. NVIDIA Dynamo, büyük ölçekli dağıtık ortamlarda yaratıcı yapay zeka ve akıl yürütme modellerini dağıtmak için yüksek verimlilikte, düşük gecikmeli açık kaynaklı bir çıkarım sunucu çerçevesidir. Bu çerçeve, açık kaynaklı DeepSeek-R1 modellerini NVIDIA Blackwell üzerinde çalıştırırken sunulan istek sayısını %30’a kadar artırmaktadır. NVIDIA Dynamo, PyTorch, SGLang, NVIDIA TensorRT-LLM ve vLLM gibi açık kaynak araçlarıyla uyumlu olup, geliştiriciler ve yapay zeka araştırmacılarına yapay zekayı hızlandırmaları için destek sağlamaktadır.
NVIDIA Dynamo’nun Yenilikçi Özellikleri
NVIDIA Dynamo, aşağıdaki önemli yenilikleri sunmaktadır:
- Dağıtık GPU’larda sunucu aşamalarının ayrılması sayesinde her GPU başına verimliliği artırma.
- Talep değişikliklerine göre dinamik GPU programlaması yaparak performansı optimize etme.
- KV önbellek yeniden hesaplama maliyetlerini azaltmak için LLM farkındalığına sahip istek yönlendirmesi.
- GPU’lar arasındaki veri transferini hızlandırarak çıkarım yanıt sürelerini azaltma.
- Farklı bellek hiyerarşilerinde KV önbellek dışa aktarma ile sistem verimliliğini artırma.
Geliştiriciler için Hızlı Erişim
Bugünden itibaren, NVIDIA Dynamo, geliştiriciler için ai-dynamo/dynamo GitHub reposunda erişime açılmıştır. Hızlı üretim süresi ve kurumsal düzeyde güvenlik, destek ve istikrar arayan işletmeler için NVIDIA Dynamo, NVIDIA NIM mikro hizmetleri ile birlikte sunulacaktır ve bu hizmetler NVIDIA AI Enterprise paketinin bir parçasıdır.
Açıklama: NVIDIA Dynamo’nun Mimarisi
Bu yazı, NVIDIA Dynamo‘nun mimarisi ve ana bileşenlerini açıklamakta; bu yapıların nasıl maliyet etkin bir şekilde olduğu ve yaratıcı yapay zeka modellerinin tek bir GPU’dan binlerce GPU’ya kadar ölçeklenmesine yardımcı olduğunu vurgulamaktadır.
Dağıtık Ortamlarda Yapay Zeka Çıkarımının Hızlandırılması
Yapay zeka çıkarımları, geliştiricilerin yeni uygulamalar oluşturmasını sağlayarak, akıl yürütme modellerini iş akışlarına entegre etmesine olanak tanır. Ancak, bu aynı zamanda önemli bir tekrarlayan maliyet anlamına gelir ve modellerini maliyet etkin bir şekilde ölçeklendirmeyi hedefleyenler için büyük zorluklar oluşturur. NVIDIA, 2018’de NVIDIA Triton Çıkarım Sunucusu’nu ilk tanıttığında, amacı yapay zeka inovasyonunu hızlandırmak ve çıkarım maliyetlerini düşürmekti.
Triton, her tür çerçeveye özel çıkarım sunumunu tek bir platformda birleştirerek, çıkarım maliyetlerini önemli ölçüde azaltmayı başarmışıdır. Bugün, bazı dünya çapındaki önde gelen kuruluşlar tarafından üretimde kullanılan Triton, yenilikler ve gelişmiş yöntemlerle desteklenmiş bir açık kaynak çıkarım sunucusu olmuştur.
NVIDIA Dynamo ile Gelişen Çıkarım Süreçleri
NVIDIA Dynamo, Triton’un başarısından faydalanarak, çoklu düğüm dağıtık ortamlarda yaratıcı yapay zeka modellerini sunmak için tasarlanmış yeni bir modüler mimari sunmaktadır. NVIDIA Dynamo, çıkarım iş yüklerinin GPU düğümleri arasında sorunsuz bir şekilde ölçeklenmesini ve dinamik GPU işçi tahsisini sağlarken, kullanıcı taleplerine etkin bir şekilde yanıt vermektedir.
NVIDIA Dynamo, NVIDIA TensorRT-LLM, vLLM ve SGLang gibi ana LLM çerçevelerini desteklemektedir. Ayrıca, çıkarım süreçlerini optimize eden çeşitli yöntemler içermektedir. Bu yöntemlerden biri, performansı artırmak için çıkarım aşamalarını farklı GPU cihazlarına ayıran dağıtılmış hizmet modelidir.
Performans Artışı ile Birlikte Değişen Çıkarım Süreçleri
Geleneksel LLM dağıtımları, her aşamanın farklı kaynak gereksinimleri olduğu göz önüne alındığında, her iki aşamanın da aynı GPU veya düğümde yer alması nedeniyle verimliliği azaltabilmektedir. NVIDIA Dynamo, dağıtılmış hizmet ile bu sorunları çözmekte ve her aşamayı optimize ederek kaynakları daha etkili kullanmaktadır. Bunun sonucunda, NVIDIA Dynamo, DeepSeek-R1 modelini NVIDIA GB200 NVL72 üzerinde çalıştırırken, sunulan istek sayısını %30’a kadar artırmayı başarmıştır.

NVIDIA Dynamo’nun yeni özellikleri sayesinde, hem kullanıcı taleplerini daha etkili bir şekilde karşılamak hem de özellikle uzun girdi dizileriyle çalışırken kaynak kullanımını optimize etmek mümkün hale gelmiştir.
NVIDIA Dynamo Planlayıcı: GPU Kaynaklarını Optimize Etme
Büyük ölçekli dağınık ve ayrık hizmet çıkarım sistemlerinde, GPU kaynaklarını etkili bir şekilde yönetmek, verimliliği artırmak için kritik öneme sahiptir. NVIDIA Dynamo Planlayıcı, bu sistemde anahtar kapasite ölçümlerini sürekli olarak izler ve gelen taleplerin nasıl karşılanacağı konusunda en iyi kararların verilmesine yardımcı olur. Bu sayede işlem yükleri değiştiğinde bile, GPU kaynakları verimli bir biçimde tahsis edilebilir.
NVIDIA Dynamo Akıllı Yönlendirici: KV Önbellek Hesaplama Maliyetlerini Düşürme
NVIDIA Dynamo Akıllı Yönlendirici, gelen istekleri değerlendirirken KV önbelleğinin daha önce oluşturulmuş bölümlerini yeniden kullanarak hesaplama sürelerini azaltır. KV önbelleğinin verimli bir şekilde yönetilmesi, özellikle sık tekrar eden talepler için oldukça faydalıdır. Akıllı Yönlendirici, veri akışını takip ederek, daha önce yapılmış hesaplamaları tekrarlamak yerine mevcut önbellekleri kullanarak sistem performansını artırır.
NVIDIA Bulut KB Önbellek Yöneticisi: Maliyet Etkin Depolama Çözümleri
NVIDIA Dynamo KV Önbellek Yöneticisi, daha önce oluşturulmuş KV önbellek bloklarının daha maliyet etkin bellek ve depolama çözümlerine dışa aktarılmasına olanak tanır. Bu özellik, AI çıkarım ekiplerinin geçmiş verilere kolayca erişmesini ve böylece hesaplama maliyetlerini düşürmesini sağlar. KV önbellek yöneticisi, özellikle büyük dağıtık sistemlerde etkili bir şekilde çalışarak, hızlı veri erişimini sağlar.
Sonuç ve Davet
NVIDIA Dynamo, Triton’un başarıları üzerine inşa edilmiş yeni bir modüler mimari, dağıtık çıkarım yetenekleri ve ayrık hizmet desteği sunmaktadır. Geliştiriciler, yeni yaratıcı yapay zeka modellerini bugün itibarıyla ai-dynamo/dynamo GitHub reposundan başlatabilirler. Ayrıca, yapay zeka çıkarım geliştiricileri ve araştırmacıları, NVIDIA’nın resmi sunucuları olan NVIDIA Dynamo Discord Sunucusu‘na katılarak daha fazla katkıda bulunabilirler.