SON DAKİKA

Nvdia

NVIDIA Dynamo ile llm-d Topluluk İnisiyatifleri: Büyük Ölçekli Dağıtık Çıkarımın İlerlemesi İçin Hızlandırma

Red Hat Summit 2025’te tanıtılan llm-d topluluğu, açık kaynak ekosisteminde generatif yapay zeka çıkarım yeniliklerini hızlandırmak adına önemli bir adım olarak öne çıkıyor. vLLM ve Inference Gateway üzerine inşa edilen llm-d, büyük ölçekli çıkarım dağıtımları için Kubernetes-doğal bir mimari sunarak vLLM’nin yeteneklerini genişletiyor.

Bu yazı, llm-d projesini destekleyen ana NVIDIA Dynamo bileşenlerini açıklamaktadır.

Hızlandırılmış Çıkarım Veri Transferi

Büyük ölçekli dağıtılmış çıkarım, model paralelliği tekniklerinden yararlanarak internode ve intranode, düşük gecikmeli ve yüksek verimli iletişime ihtiyaç duyar. Ayrıca, ayrışmış hizmet ortamlarında, prefill ve decode GPU işleyicileri arasında hızlı KV cache transferi gerektirir.

llm-d, yüksek verimlilik ve düşük gecikme süresi için NVIDIA NIXL‘yi kullanarak, dağıtılmış ve ayrışmış veri transferini hızlandırır. NIXL, NVIDIA Dynamo’nun bir parçası olup, veri transferinde tutarlı bir API sunarak verileri hızlı ve asenkron bir şekilde hareket ettirmeyi sağlar. Bu kütüphane, çıkarım verisi hareketi için optimize edilmiştir ve farklı türde bellek ve depolama arasında bloklamasız ile veri transferlerini destekler. llm-d, ayrışmış hizmet yapılandırmalarında prefill ve decode işlemleri arasında KV cache veri transferini hızlandırmak için NIXL’ye güvenir.

Prefill ve Decode Ayrıştırılması

Geleneksel büyük dil modeli (LLM) uygulamaları, işlemci yoğun prefill aşamasını ve bellek yoğun decode aşamasını aynı GPU üzerinde gerçekleştirir. Bu durum, kaynak verimliliğini azaltır ve performansı sınırlar. Ayrıştırılmış hizmet, iki aşamanın farklı GPU veya düğümlere bölünmesi ile bu sorunu çözer; bu sayede bağımsız optimizasyon yapılabilir ve donanım daha etkin bir şekilde kullanılabilir.

Ayrıştırılmış hizmet, prefill ve decode düğümleri arasında istemci isteklerinin dikkatlice programlanmasını gerektirir. NVIDIA, açık kaynak topluluğunun ayrıştırılmış hizmete geçişini hızlandırmak için vLLM projesinde prefill ve decode istemci istekleri için programlama algoritmalarının tasarımına ve uygulanmasına destek vermektedir.

Dinamik GPU Kaynak Planlaması

Geleneksel otomatik ölçekleme yöntemleri, sorgu başına saniye (QPS) gibi metriklere dayanarak modern LLM hizmet sistemleri için yetersiz kalmaktadır, özellikle de ayrıştırılmış hizmet kullanan sistemlerde. Çünkü çıkarım iş yükleri, giriş dizi uzunluğu (ISL) ve çıkış dizi uzunluğu (OSL) açısından önemli ölçüde farklılık göstermektedir. Uzun ISL’ler, prefill GPU’larından daha fazla talep ederken, uzun OSL’ler decode GPU’lara baskı yapar.

Dinamik iş yüklerindeki değişken ISL’ler ve OSL’ler, basit metrik like QPS’nin kaynak ihtiyaçlarını tahmin etmesini veya dağıtılmış hizmet ortamlarında GPU yüklerini dengelemesini zorlaştırmaktadır. Bu karmaşıklığı aşmak adına, NVIDIA, llm-d topluluğu ile işbirliği yaparak llm-d Variant Autoscaler bileşenine NVIDIA Dynamo Planner‘ın avantajlarını kazandırmayı planlıyor. Dynamo Planner, LLM çıkarımının kendine özgü taleplerini anlayan uzman bir planlama motorudur ve doğru tipte GPU’yu doğru zamanda akıllıca ölçeklendirebilir.

KV Cache Offloading

Büyük miktarda KV cache’in GPU belleğinde depolanması, AI çıkarım ekipleri için önemli bir zorluk haline gelmiştir. Bu sorunu ele almak için NVIDIA, topluluk ile işbirliği yaparak NVIDIA Dynamo KV Cache Manager‘ın llm-d KV Cache alt sistemine kazandırılmasına odaklanacaktır.

Dynamo KV Cache Manager, daha az sıklıkta erişilen KV cache verilerini daha uygun maliyetli depolama çözümlerine, örneğin CPU ana belleğine, SSD’lere veya ağ depolama sistemlerine aktarır. Bu strateji, organizasyonların büyük miktarlarda KV cache depolamasını sağlarken, değerli GPU kaynaklarını diğer görevler için serbest bırakmayı mümkün kılar. Dynamo KV Cache Manager, llm-d için farklı depolama sağlayıcılarıyla entegre olmayı sağlayan NIXL’yi kullanarak KV cache hiyerarşisini kolaylaştırır.

NVIDIA NIM ile Optimize Edilmiş AI Çıkarımı

Girişimlerin, açık kaynak yenilikleri ile kurumsal güvenilirlik ve destek arayışına uygun bir çözüm bulmaları için, NVIDIA NIM, NVIDIA teknolojisi ile topluluk tarafından geliştirilen önde gelen çıkarım teknolojilerini entegre eder. Bu, SGLang, NVIDIA TensorRT-LLM ve vLLM’yi içerirken, yakında Dynamo bileşenlerinin de desteğini alacaktır. NVIDIA NIM, bulutlar, veri merkezleri ve iş istasyonları üzerinde yüksek performanslı AI model çıkarımını güvenilir bir şekilde sağlamak için tasarlanmış kolay kullanımlı mikro hizmetler kümesidir.

NVIDIA ve Red Hat, NVIDIA hızlandırıcılarının desteğiyle Red Hat OpenShift ve Red Hat OpenShift AI’i desteklemek için uzun bir işbirliği geçmişine sahiptir. AI eğitim ve çıkarım iş yüklerinin dağıtımını, yönetimini ve ölçeklendirilmesini basitleştirmek için NVIDIA GPU Operator, NVIDIA Network Operator ve NVIDIA NIM Operator Red Hat OpenShift üzerinde sertifikalıdır ve Red Hat OpenShift AI ile uyumludur.

Red Hat, NVIDIA NIM’i Red Hat OpenShift AI uygulama kataloguna entegre etmiştir. Red Hat, Red Hat OpenShift ve Red Hat OpenShift AI’in herhangi bir NVIDIA sertifikalı sistemde çalışmasını desteklemekte ve şu anda NVIDIA ile birlikte NVIDIA GB200 NVL72 sistemlerinde destek doğrulama çalışmalarına devam etmektedir.

Açık Kaynak Çıkarımını İlerletemek İçin Başlayın

NVIDIA’nın llm-d projesine nasıl destek olduğunu öğrenmek için Red Hat Summit 2025 anahtarı oturumunu izleyebilir ve Google, Neural Magic, NVIDIA ve Red Hat’tan uzmanların yer aldığı panel tartışmasını dinleyebilirsiniz.

Açık kaynak yazılımlar, NVIDIA’nın bulut teknolojilerinin temelini oluşturmaktadır. NVIDIA, konteyner çalışma süreleri, Kubernetes operatörleri ve uzantıları gibi açık kaynak projelerine ve topluluklarına katkıda bulunmaktadır.

Yapay zeka geliştiricileri ve araştırmacılar, llm-d ve NVIDIA Dynamo projelerinin geliştirilmesine katılmaya ve açık kaynak çıkarımının geleceğini şekillendirmeye davet edilmektedir.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri