Yapay zeka (AI) modelleri, çıkış (inference) motoru arka uçları ve dağıtık çıkarım çerçeveleri, mimarisi, karmaşıklığı ve ölçeği açısından sürekli olarak gelişiyor. Bu hızlı değişim sürecinde, bu gelişmiş yetenekleri destekleyen yapay zeka çıkarım hatlarını etkin bir şekilde kurmak ve yönetmek önemli bir zorluk haline geliyor.
NVIDIA NIM Operatörü, akıllı bir şekilde ölçeklenmenize yardımcı olmak için tasarlandı. Bu araç, Kubernetes küme yöneticilerinin NVIDIA NIM çıkarım mikro hizmetlerini çalıştırması için gerekli yazılım bileşenlerini ve hizmetleri yönetmesini sağlıyor. Bu mikro hizmetler, akıl yürütme, bilgi edinme, görsel, ses, biyoloji gibi son teknoloji büyük dil modellerini (LLM) ve çok modlu yapay zeka modellerini içeriyor.
Son sürüm NIM Operatörü 3.0.0, NVIDIA NIM mikro hizmetlerinin ve NVIDIA NeMo mikro hizmetlerinin Kubernetes ortamlarında dağıtımını basitleştirmek ve optimize etmek için genişletilmiş yetenekler sunuyor. Bu yeni sürüm, mevcut Kubernetes altyapınızla sorunsuz bir şekilde entegre oluyor ve KServe dağıtımlarınızı destekliyor.
NVIDIA’nın müşterileri ve ortakları, NIM Operatörü’nü çeşitli uygulamalar ve yapay zeka ajanları için çıkarım hatlarını etkili bir şekilde yönetmek amacıyla kullanıyor. Bu uygulamalar arasında sohbet botları, ajansiyel RAG ve sanal ilaç keşfi gibi alanlar yer alıyor.
NVIDIA, NIM Operatörü ile birlikte KServe’de NIM dağıtımını sağlamak için Red Hat ile iş birliği yaptı. Red Hat Mühendislik Direktörü Babak Mozaffari, “Red Hat, NVIDIA NIM dağıtımı için NIM Operatörü açık kaynak GitHub deposuna katkıda bulundu.” dedi. “Bu özellik, NIM Operatörü’ne, NIM mikro hizmetlerini KServe yaşam döngüsü yönetiminden yararlanarak dağıtma olanağı sağlıyor ve NIM hizmeti kullanarak ölçeklenebilir NIM dağıtımını basitleştiriyor. NIM Operatörü’ndeki yerel KServe desteği, kullanıcıların NIM önbelleği ile model önbellekleme avantajlarından yararlanmalarını ve NeMo Guardrails gibi NeMo yeteneklerini kullanarak güvenilir yapay zeka inşa etmelerini sağlıyor.”
Yeni Yetenekler: NIM Operatörü 3.0.0 ile Ön Planda
Bu yazı, NIM Operatörü 3.0.0 sürümündeki yeni yetenekleri açıklıyor:
- Basitleştirilmişçoklu LLM uyumlu ve çoklu düğüm NIM dağıtımı
- Dinamik Kaynak Tahsisi (DRA) ile verimli GPU kullanımı
- KServe üzerinde sorunsuz dağıtım
Esnek NIM Dağıtımı: Çoklu LLM Uyumlu ve Çoklu Düğüm
NIM Operatörü 3.0.0, kolay ve hızlı NIM dağıtımı desteği ekliyor. Bunu alanına özgü NIM’lerle, biyoloji, ses veya bilgi edinme gibi çeşitli seçeneklerle ya da çoklu LLM uyumlu veya çoklu düğüm dağıtım çeşitleriyle kullanabilirsiniz.
- Çoklu LLM uyumlu NIM dağıtımı: Çeşitli modelleri kişiye özel ağırlıklarla dağıtmak için NVIDIA NGC, Hugging Face veya yerel depolama gibi kaynaklardan yararlanabilirsiniz. Ağırlıkları PVC’lere indirmek ve dağıtım, ölçekleme ve geçiş yönetimini sağlamak için NIM önbellek özelleştirilmiş kaynak tanımını (CRD) kullanabilirsiniz.
- Çoklu düğüm NIM dağıtımı, tek bir GPU’ya sığmayan ya da birden fazla GPU’da çalışması gereken büyük LLM’lerin dağıtımını kolaylaştırıyor. NIM Operatörü, NIM önbellek CRD’si kullanarak çoklu düğüm NIM dağıtımı için önbellekleme desteği sunuyor ve bunları Kubernetes’te NIM hizmet CRD’si aracılığıyla dağıtıyor.
Çoklu düğüm NIM dağıtımı, GPUDirect RDMA olmaksızın gerçekleştirildiğinde, model parçalarının yüklenmesi sırasında zaman aşımına uğrayarak LWS lider ve işçi pod’larının sık sık yeniden başlamasına sebep olabilir. IPoIB veya ROCE gibi hızlı ağ bağlantılarının kullanılması önerilmektedir ve bu, NVIDIA Ağı Operatörü aracılığıyla kolayca yapılandırılabilir.
Verimli GPU Kullanımı: DRA ile
DRA, geleneksel cihaz eklentilerini daha esnek ve genişletilebilir bir yaklaşımla değiştiren yerleşik bir Kubernetes özelliğidir. Bu, kullanıcıların GPU cihaz sınıfları tanımlamasına, bu sınıflara göre GPU istemesi ve iş yükleri ile iş ihtiyaçlarına göre filtrelemesine olanak tanır.
NIM Operatörü 3.0.0, DRA’yı teknoloji önizleme olarak desteklemektedir. Bu, NIM Pod’undaki ResourceClaim ve ResourceClaimTemplate ayarlarını NIM hizmet CRD’si ve NIM Boru Hattı CRD’si aracılığıyla yapılandırarak kullanıcıların kendi taleplerini oluşturmasına veya NIM Operatörü’nün bunları otomatik olarak oluşturmasına izin verir.
NIM Operatörü DRA şunları destekler:
- Tam GPU ve MIG kullanımı
- Zaman dilimi ile paylaşım yoluyla, aynı talebi birden fazla NIM hizmetine atama
Bu özellik şu anda teknoloji önizleme olarak kullanılabilir ve tam destek çok yakında sağlanacaktır.
KServe Üzerinde Sorunsuz Dağıtım
KServe, birçok ortak ve müşteri tarafından kullanılan geniş çapta benimsinmiş bir açık kaynak çıkarım sunucu platformudur. NIM Operatörü 3.0.0, NIM’i yönetmek için InferenceService özel kaynağını kullanarak hem ham hem de sunucusuz dağıtımlar destekliyor. NIM Operatörü, InferenceService CRD’lerinde gerekli tüm ortam değişkenlerini ve kaynakları otomatik olarak yapılandırarak dağıtım sürecini basitleştiriyor.
Bu entegrasyon, ek iki avantaj sağlıyor:
- NIM önbelleği ile akıllı önbellekleme, ilk çıkarım süresini ve otomatik ölçeklenme gecikmesini azaltarak daha hızlı ve daha duyarlı dağıtımlar sağlıyor.
- NeMo mikro hizmet desteği, değerlendirme, koruma ve özelleştirme ile yapay zeka sistemlerinin gecikme, doğruluk, maliyet ve uyum açısından geliştirilmesine yardımcı oluyor.
NIM Operatörü 3.0.0 ile Yapay Zeka Çıkarımını Ölçeklendirmeye Başlayın
NVIDIA NIM Operatörü 3.0.0, ölçeklenebilir yapay zeka çıkarımını daha önce olmadığı kadar kolay hale getiriyor. Çoklu LLM uyumlu ya da çoklu düğüm NIM dağıtımı, DRA ile GPU kullanımını optimize etme veya KServe’de dağıtım yapma konularında bu güncelleme, yüksek performanslı, esnek ve ölçeklenebilir yapay zeka uygulamaları inşa etmenizi sağlıyor.
NIM Operatörü, NVIDIA NIM ve NVIDIA NeMo mikro hizmetlerinin otomatik dağıtımı, ölçeklenmesi ve yaşam döngüsü yönetimi ile kurumsal ekiplerin yapay zeka iş akışlarını benimsemelerini kolaylaştırıyor. Bu çalışma, yapay zeka iş akışlarını hızlı bir şekilde üretime almayı kolaylaştıran NVIDIA AI Mavi Baskıları ile uyumlu bir hedefi destekliyor. NIM Operatörü, NVIDIA AI Enterprise bir parçası olarak kurumsal destek, API stabilitesi ve proaktif güvenlik yamanması sağlıyor.
Başlamak için NGC üzerinden ya da NVIDIA/k8s-nim-operator açık kaynak GitHub deposundan erişim sağlayabilirsiniz. Kurulum, kullanım veya sorunlar hakkında teknik sorularınız için NVIDIA/k8s-nim-operator GitHub deposunda bir sorun bildirebilirsiniz.