Son birkaç haftada OpenAI’nin gpt-oss ve Moonshot AI’nin Kimi K2 gibi birçok yeni açık kaynak modelinin piyasaya sürülmesi, LLM (Büyük Dil Modelleri) alanında hızlı bir yenilik dalgasının habercisi oldu. Bugün mevcut olan Dynamo 0.4, bu tür modellerin düşük maliyetle ölçeklendirilmesine yönelik yeni yetenekler sunuyor. Performansa, gözlemlenebilirliğe ve hizmet seviyesi hedeflerine (SLO) dayalı otomatik ölçeklenmeye odaklanıyor.
Dynamo 0.4‘ın öne çıkan özellikleri arasında:
- NVIDIA Blackwell üzerinde 4 kat daha hızlı performans
- GB200 NVL72 ve Hopper üzerinde büyük ölçekli uzman paralel dağıtım kılavuzları
- Dağıtılmış kurulumları basitleştirmek için yeni prefill-decode (PD) yapılandırma aracı
- Kubernetes entegrasyonuyla SLO tabanlı PD otomatik ölçeklendirme
- Gerçek zamanlı performans izleme için yerleşik gözlemlenebilirlik metrikleri
- İn-flight istek yönlendirme ve erken hata tespitiyle artırılmış dayanıklılık
Bu güncellemeler hakkında daha fazlasını öğrenmek için okumaya devam edin.
Dynamo 0.4 ile 4 kat daha hızlı çıkarım performansı sağlama
Dynamo 0.4 sürümü, NVIDIA Blackwell için önemli bir dağıtılmış sunum performansı kazancı getiriyor. Yeni OpenAI gpt-oss-120b modelini Dynamo ve TensorRT-LLM kullanarak NVIDIA B200 üzerinde çalıştırmak, uzun giriş dizisi uzunlukları için 4 kata kadar daha hızlı etkileşim (token/saniye/kullanıcı) sağlıyor. Bu, ajans iş akışları, kod oluşturma ve özetleme gibi alanlarda yaygın olarak kullanılıyor ve herhangi bir verimlilik kaybı olmadan gerçekleşiyor.
Ayrıca, DeepSeek-R1 671B modelinin NVIDIA GB200 NVL72 ve TensorRT-LLM ile Dynamo üzerinde çalıştırılması, hiçbir artırılmış çıkarım maliyeti olmaksızın 2,5 kat daha yüksek bir verimlilik sağladı.
Bu tür performans artışları, Dynamo’daki dağıtılmış hizmet modeli sayesinde mümkün oldu. Bu model, model çıkarımının ön doldurma ve çözümleme aşamalarını ayrı GPU’larda işlemektedir. Bu aşamaları ayırarak, Dynamo, her aşamanın spesifik gereksinimlerine göre GPU kaynaklarının esnek dağılımını ve model paralelliğini sağlıyor, bu da genel verimliliği önemli ölçüde artırıyor.
Bu sonuçları yeniden üretimi kolaylaştırmak ve dağıtılmış hizmet mimarilerinin maliyet etkinliğinden tam olarak yararlanmanızı sağlamak için, toplulukların kullanımı için gerekli olan scriptleri de paylaşmaktan heyecan duyuyoruz. İşte GitHub bağlantıları:
- Dynamo ve TensorRT-LLM kullanarak OpenAI gpt-oss-120b’yi B200 (8xGPU) üzerinde dağıtma
- Dynamo ve TensorRT-LLM kullanarak DeepSeek-R1 671B’yi GB200 (16xGPU) üzerinde dağıtma
Otomatik Dağıtım için İhtiyaç Duyulan Ayarları Belirleme
Dağıtılmış hizmet alanında karşılaşılan en önemli zorluklardan biri, beklenen çıktı verimliliğini tahmin etmek ve belirli dağıtımlar için doğru yapılandırmayı bulmaktır. Kullanıcılar, ön doldurma ve çözümleme aşamaları için kaç GPU tahsis edeceklerini ve hedef SLO’ları karşılamak için hangi model paralelliği türünü kullanmaları gerektiğini belirlemek konusunda sıkıntı yaşadıklarını ifade ettiler.
Bu zorluklara yanıt olarak, AIConfigurator adında yeni bir araç sunuyoruz. Bu araç, belirli bir model ve GPU bütçesine göre optimal PD dağıtımı konfigürasyonu ile model paralelliği stratejisi önerir ve SLO’ları karşılamak için uygundur.
AIConfigurator, modelin farklı katmanlarında (dikkat, FFN, iletişim ve hafıza dahil) önceden ölçülmüş bir dizi performans verisine dayanarak, kullanıcı tanımlı SLO’ları belirlediği GPU bütçesini en iyi şekilde kullanacak şekilde öneriler sunar. Aracı kullanarak, Dynamo’da sorunsuz bir şekilde dağıtılabilecek arka uç yapılandırmalarını otomatik olarak oluşturabiliriz.
Performans Hedeflerini Karşılamak için Otomatik Ölçeklendirme
Mayıs 0.2 sürümünde, jeneratif AI çıkarımları ve PD dağıtımı için özel olarak tasarlanmış bir GPU otomatik ölçeklendirme motoru olan Planner‘ı tanıttık. Prefill kuyruk ve çözümleme bellek kullanımını izleyerek, Planner, çıkarım işçi sayısını akıllı bir şekilde artırarak veya azaltarak GPU kullanımını maximize etmeyi ve maliyetleri en aza indirmeyi sağlıyor.
0.4 sürümü ile Planner‘ı bir adım ileriye taşıyoruz. SLO tabanlı otomatik ölçeklendirme ile yalnızca maliyetleri optimize etmekle kalmayıp, zamanında ilk token (TTFT) ve token arası gecikme (ITL) gibi sıkı performans hedeflerini de karşılayabiliyoruz.
Geleneksel, reaktif ölçeklendirme sistemlerinden farklı olarak, yeni SLO tabanlı Planner, proaktif bir yaklaşım sergiliyor:
- Dağıtım öncesi profil alımı sağlayarak, dağıtımınızın farklı model paralel ve paketleme yapılandırmalarındaki davranışını anlamasını sağlıyor.
- SLO’larınıza göre en maliyet etkin motor yapılandırmalarını öneriyor.
- Gelişmiş zaman serisi modellemesi (ARIMA veya Prophet gibi) kullanarak gelecekteki trafik desenlerini tahmin ediyor.
- Tahmin edilen talep altında SLA hedeflerini karşılamak için gereken minimum PD işçi sayısını hesaplıyor.
- Yüksek trafik desenlerini sürekli değerlendirerek, hedef SLA’ları korumak için PD işçilerini dinamik olarak yeniden ayarlıyor.
Öne çıkan noktalar, girdi/çıktı dizisi uzunluğundaki değişimlerin etkisini tahmin edebilme yeteneğidir. Bu, kaynakların tıkanma olmadan ölçeklenmesini sağlayarak, kullanıcı deneyimini ve altyapı harcamalarını kontrol altında tutar.
Çalışmalarınızı kolaylaştırmak için aşağıdaki gönderi demo videosunu izleyebilirsiniz:
Planner, Kubernetes ile yerel olarak entegre ediliyor. Bu durum, kapsayıcı tabanlı altyapıya standart hale gelmiş organizasyonların, Dynamo’yu dağıtmasını ve AI iş yüklerini ölçeklendirmesini kolaylaştırıyor. Bu sürüm, vLLM için Planner desteği içeriyor; gelecekte daha fazla çıkarım çerçevesi desteklenecek.
Gerçek Zamanlı Performans İzleme ve Gözlemlenebilirlik
Büyük ölçekli dağıtılmış çıkarım ortamlarında gözlemlenebilirlik kritik öneme sahiptir. Mühendislik ekipleri, sistem sağlık durumunu izlemek, performans darboğazlarını tanımlamak ve katı SLO’lara ulaşmak zorundadır. Burada, gecikme, verimlilik ve GPU kullanımının sürekli olarak optimize edilmesi gerekir.
Dynamo 0.4 sürümü ile, Dynamo işçileri ve bileşenleri, gözlemlenebilirlik metrikleri sağlayarak aşağıdaki bilgileri içermektedir:
- Ortalama istek sayısı ve istek süresi
- Ortalama zamanla ilk token (TTFT) ve token arası gecikme (ITL)
- Ortalama giriş ve çıkış dizisi uzunluğu
- GPU kullanımı ve güç tüketimi
Bu metrikler, açık kaynak Prometheus aracı kullanılarak toplanmaktadır ve açık kaynaklı izleme ve gözlemlenebilirlik araçlarıyla kolaylıkla kullanılabilir. Ayrıca, mühendislik ekiplerinin ve çözüm mimarlarının kendi hizmet çevrelerine özel metrikleri tanımlayıp iletebileceği bir API de sunulmaktadır. Bu, daha fazla esneklik ve genişletilebilirlik sağlar.
Dynamo 0.4’de bulunan bu gözlemlenebilirlik temeli, PD dağıtımının da dahil olduğu daha ayrıntılı ve kullanım senaryosuna özel metriklerin sunulacağı gelecekteki sürümler için zemin hazırlamaktadır.
Dayanıklılığı Artırmak ve Hata Tespitini Hızlandırmak
Öncü reasoning MoE modellerini ölçeklendirirken, yüzlerce GPU’yu kapsayan çok düğümlü ortamlar gereklidir. Bu tür kurulumlarda, yazılım veya donanım bileşenlerinden herhangi birindeki bir arıza, sistemin tüm operasyonlarını kesintiye uğratabilir ve kullanıcı isteğinde gecikmelere yol açabilir.
Dynamo 0.4 sürümü ile birlikte, kesinti süresini azaltan inflight istek yönlendirme gibi hata toleransı ve dayanıklılık özellikleri eklenmiştir. Önceki sürümlerde, çevrimdışı GPU’lara gönderilen istekler başarısız olur ve tekrar üst katmanlara veya son kullanıcıya geri dönüş yapardı. Bu, tokenizasyon ve gömme gibi ön işlem adımlarının tekrarı anlamına geliyordu ve bu da hesaplama kaynaklarının israfına yol açıyordu. Yeni güncellemeyle, Dynamo artık mevcut istekleri yeniden yönlendirerek ara hesaplamaları koruyor ve bunları çevrimiçi GPU’lara doğrudan iletiyor. Bu sayede, gereksiz işlemler ortadan kalmış oluyor.
Ayrıca, bu sürüm daha hızlı bir hata tespit mekanizması sunuyor. Önceki sürümlerde, Dynamo’nun kontrol düzleminin önemli bir bileşeni olan etcd, çevrimdışı işçileri tespit etmek ve bu durumu sistem genelinde yaymakla yükümlüydü. Ancak bu, isteklerin hala çevrimdışı işçilere yönlendirilmesine neden olan birkaç saniye süren bir gecikme ekliyordu. Yeni sürüm, Dynamo akıllı yönlendirici içinde erken hata tespiti sunarak, kritik sağlık sinyallerine doğrudan yanıt verebilmesine olanak tanıyor. Böylece tespit ve kurtarma süresi kısalıyor ve başarısız isteklerin sayısı önemli ölçüde azalıyor.
LLM İnferansı Nedir?
Bir LLM’e bir soru sorduğunuzda ne olduğunu anlamak için, bu işlem ‘çıkarma’ olarak adlandırılır ve prefill ile çözümleme ve token tahmini aşamalarını kapsar. Bu videoda, bu sürecin nasıl çalıştığını ve NVIDIA Dynamo‘nın her aşamayı nasıl hızlandırdığını ayrıntılı bir şekilde ele alıyoruz. Dağıtılmış hizmet modeli, bu adımları hızlandırarak daha verimli AI yanıtları almayı sağlıyor.
Topluluğumuza Katılın
Geliştirici topluluğumuzun yardımıyla Dynamo’yu geliştirmeye devam etmekten heyecan duyuyoruz. Geçmişe dönük Ofis Saatleri kayıtlarını inceleyebilir ve sorularınız için yaklaşan ofis saatlerimizi dinleyebilirsiniz.
Diğer geliştiricilerle bağlantı kurmak, geri bildirim paylaşmak ve anlık destek almak için Discord topluluğumuza katılın. Ve heyecan verici bir yolda olduğumuzu düşünüyorsanız, açık kaynak repo‘mıza göz atın; topluluğun katkılarına, sorunlarına ve fikirlerine sıcak bakıyoruz.