SON DAKİKA

Nvdia

“NVIDIA DGX Bulut Sunucusu ile Yapay Zeka’yı Bulut Ortamlarında Kesintisiz Ölçeklendirme”

NVIDIA DGX Cloud Serverless Inference, uygulamaların hızlı ve güvenilir bir şekilde dağıtılmasını sağlayan otomatik ölçekleme özelliğine sahip bir AI çıkarım çözümü‘dür. NVIDIA Cloud Functions (NVCF) ile güçlendirilen DGX Cloud Serverless Inference, çoklu bulut ve yerel ortamlar arasında GPU hızlandırmalı iş yükleri için çoklu küme altyapı kurulumlarını soyutlamaktadır. AI iş yükleri, yüksek performanslı hesaplama (HPC), AI simülasyonları veya konteynerleştirilmiş uygulamaları yönetirken, platform her yerde ölçeklenmeyi mümkün kılar, altyapıyı soyutlar. Bir kez dağıtıp her yerde ölçeklendirin.

Bağımsız Yazılım Sağlayıcıları (ISV), genellikle AI uygulamalarını dağıtırken ve ölçeklendirirken zorluklarla karşılaşır. Bu uygulamalar, dünya genelinde veya müşteri altyapısına yakın bir şekilde dağıtılması gerekebilir. Bu durum, birden fazla bulut, veri merkezi ve coğrafya arasında dağıtım yapmayı gerektirerek karmaşık altyapı operasyonlarına yol açar. Serverless AI çıkarımı, altyapı yönetimini basit, kullanıcı dostu ve tutarlı bir şekilde nasıl yapılacağı konusunda ISV’lere yardımcı olarak bu zorluğu aşar.

Olağanüstü Esneklik ve Kolaylık

NVIDIA DGX Cloud Serverless Inference, hesaplama altyapısının yatay bir toplayıcısı olarak işlev görür. ISV’ler, NVIDIA, NVIDIA Bulut Ortakları, özel bir bulut hizmet sağlayıcısından (CSP) veya kendi yerel kapasitelerinden gelen kaynakları sorunsuz bir şekilde karıştırabilir. İsterseniz geçici olarak kapasiteyi artırabilir veya yeni bulut sağlayıcılarını test edebilirsiniz; bu çözüm eşsiz bir esneklik sunar.

Kapsamlı Yetenekler ve Uygulama

Bu yazıda, NVIDIA DGX Cloud Serverless Inference’ın geliştiricilere, küresel yük dengelemesi, otomatik ölçekleme ve multicloud esnekliği ile AI, grafik ve iş yükleri üzerinde tek bir API uç noktası kullanarak nasıl kesintisiz bir şekilde ölçeklendirme sağladığını açıklayacağız.

Hem Hız Hem de Verimlilik

DGX Cloud Serverless Inference, geliştiricilerin ve ISV’lerin en iyi bildikleri şeye odaklanmalarını sağlar: uygulama geliştirmeye. NVCF, bu uygulamaların teslimatını ve ölçeklenmesini basit bir şekilde gerçekleştirmekte, GPU yönetimi veya altyapı işlemleri ile ilgili endişeleri ortadan kaldırmaktadır. Bununla birlikte elde edilen bazı önemli faydalar şunlardır:

  • Altyapı ve operasyonel yükün azaltılması: Uygulamaları, tek bir bütünleşik, otomatik ölçeklenen hizmet ile müşteri altyapısına daha yakın şekilde dağıtma imkanı.
  • İş büyümesi için esneklik: Patlama veya kısa süreli iş yüklerini desteklemek için hızla hesaplama kapasitesi ekleyin.
  • Kolay geçiş seçenekleri: Mevcut hesaplama düzenlemelerini, kendi hesaplama kapasitenizi sunan bir platforma entegre etmenizi sağlar.
  • Riske kapalı keşif: Yeni coğrafyalarda, sağlayıcılarda veya GPU türlerinde deneme yapma imkanı sunarak uzun vadeli yatırımlara bağlı kalmanızı engeller. Verilerin yurtseverliği, düşük gecikme süreleri ve daha düşük maliyetler gibi kullanımları destekler.

Hangi İş Yükleri Çalıştırılabilir?

DGX Cloud Serverless Inference, AI, grafik ve iş yükleri dahil olmak üzere pek çok konteynerleştirilmiş iş yükünü desteklemektedir (Şekil 2). Bu iş yükleri, build.nvidia.com üzerinde çalışan NVIDIA AI iş yüklerini veya NVIDIA Omniverse gibi simülasyon iş yüklerini içermektedir.

Examples of workloads supported by DGX Cloud Serverless Inference. Starting at the top, there are AI Workloads which include LLMs, Object Detection, Text to 3D, and Text to Image. Next, there are Graphical Workloads such as Simulations, Digital Twins, Interactive Streaming, and Digital Humans. Finally, there are Job Workloads which include Rendering, Fine-tuning, Optimized TensorRT Engines, and Physical AI Development.
Şekil 2. DGX Cloud Serverless Inference’de desteklenen iş yüklerinin örnekleri

AI İş Yükleri

Keskin büyük dil modelleri (LLMs) üzerinde çalışmak için tasarlanmıştır; bu modellerin büyük bir kısmı tek düğümlere sığmayacak şekilde büyük olup çok düğümlü çıkarım gerektiren uygulamaları içerir. DGX Cloud Serverless Inference, bu tür iş yüklerini yönetirken mükemmeldir:

  • Nesne tespiti
  • Görüntü, 3D ve video üretimi
  • Gelişmiş makine öğrenimi modelleri

Grafiksel İş Yükleri

NVIDIA, grafik hesaplama alanında uzmanlaşmıştır ve bu nedenle platform, grafik yoğun görevler için özel olarak tasarlanmıştır. Desteklediği grafiksel iş yükleri, şunları kapsar:

  • Dijital ikizler ve simülasyonlar
  • Etkileşimli akış hizmetleri
  • Dijital insan ve robotik iş akışları

Grafik iş yükleri için optimize edilmiş hesaplama ile, DGX Cloud Serverless Inference, performansı artırmak için Omniverse veya NVIDIA Aerial gibi teknolojilerle sorunsuz bir şekilde entegrasyon sağlar.

İş Yükleri

DGX Cloud Serverless Inference, tamamlanmaya yönelik “run-to-completion” iş yüklerinin mükemmel bir çözümüdür. Görüntü işleme veya AI modellerinin ince ayarlarının yapılması gibi işler için kaynakların etkin bir şekilde kullanılmasını sağlar. Kullanım senaryoları arasında:

  • NVIDIA TensorRT motor optimizasyonu
  • Fiziksel AI model eğitimi video veri üretimiyle

DGX Cloud Serverless Inference Kullanarak Başlamak

DGX Cloud Serverless Inference üzerinde bir iş yükü çalıştırmak için birden fazla yol bulunmaktadır. Şekil 1’de gösterildiği gibi, en hızlı ve en kolay yol, NVIDIA NIM mikroservis konteynerlerini ve NVIDIA Blueprints kullanmaktır. DGX Cloud Serverless Inference, kullanıcı arayüzünde elastik NIM yeteneklerini barındırarak bu optimize edilmiş modelin ölçeklendirilmesini kolaylaştırır.

Bununla birlikte, ISV’ler özel bir konteyner kullanarak DGX Cloud Serverless Inference’in otomatik ölçekleme ve küresel yük dengelemesini otomatik olarak gerçekleştirmesine olanak tanıyabilir. Ayrıca, daha karmaşık dağıtımlar için Helm grafiklerini de kullanabilirler.

İş yükü DGX Cloud Serverless Inference’a dağıtıldıktan sonra, ISV uygulaması modeli bir API uç noktasından çağırabilir. DGX Cloud Serverless Inference, bu API uç noktasının arkasında bulunan hesaplama kümelerini soyutlar. Bu API, çağrı taleplerini bir geçide ve küresel bir istek kuyruğuna yönlendirir ve optimum yük dengelemesi için birden fazla bölgesel kuyruk kullanabilir. ISV, API uç noktasının arkasında birden fazla kümeyi karıştırma ve eşleştirme imkanı bulur.

Örneğin, Şekil 3, bir ISV’nin iki farklı sağlayıcıdan iki farklı küme kullandığı bir senaryoyu gösterir. Bu sağlayıcılardan biri, bir NVIDIA Cloud Partner ya da ISV’nin CSP’deki özel bulutudur. NVIDIA Cluster Agent (NVCA) yazılımı bu küme içinde kurulu olup, bu kümedeki hesaplama kaynaklarını görünür hale getirir ve iş yükünü hizmet verme amacıyla kullanılabilir hale getirir. Diğer sağlayıcı ise, DGX Cloud’dan sağlanan rezerve veya talep üzerine hesaplamadır. ISV, benzersiz iş ihtiyaçlarına bağlı olarak küme yapılandırmalarının herhangi bir kombinasyonunu kullanabilir.

A diagram showing an AI partner service which then calls the DGX Cloud Serverless Inference API. This then calls on a request queue. The request queue can call on different clusters. One cluster is a NCP, private cloud, or on prem cluster with kubernetes, which then has the NVCF cluster agent software installed to connect to the service gateway. The other cluster is one from DGX Cloud, demonstrating the ability for the request queue to draw from multiple pools of compute across different clusters.
Şekil 3. DGX Cloud Serverless Inference, bir API’nin arkasında birden fazla kümeyi soyutlar

Küme etiketleri ile, dağıtımları hedeflemek için belirli niteliklerle işaretlenebilir. Örneğin, bir dağıtım yalnızca belirli bir coğrafyadaki, grafik optimize edilmiş, önbellek desteği olan veya belirli bir sertifikayı (örneğin, SOC2, HIPAA) karşılayan kümelere hedeflenebilir. Bu durum, ISV’lerin iş yüklerinin nerelerde çalıştırılacağını kontrol etmelerini sağlar. Daha fazla detay için Function Deployment belgeleri‘ni inceleyebilirsiniz.

Son olarak, DGX Cloud Serverless Inference API’si, nasıl kullanılacağı açısından en üst düzeyde esneklik sağlar. API, yalnızca URL ve yetkilendirme başlığı açısından belirleyicidir; yük gövdesi, iş yükünün ihtiyaçlarını karşılayacak şekilde özelleştirilebilir. Örneğin, LLM söz konusu olduğunda yük, OpenAI sohbet tamamlama API formatına uygun olarak ayarlanabilir. ISV geliştirici, HTTP Polling, HTTP Streaming ve gRPC kullanma esnekliğine de sahiptir. Daha fazla bilgi için API belgeleri‘ni kontrol edebilirsiniz.

Fonksiyonlar Nasıl Dağıtılır?

NVIDIA Cloud Functions (NVCF), DGX Cloud Serverless Inference’ın kontrol düzlem katmanıdır. NVIDIA küme ajansları, küme kayıt işlemi için işçi düğümleri üzerinde kurulu olarak kontrol düzlemi ile iletişim kurar. Bu, AI çıkarım iş yüklerinin kesintisiz dağıtımını ve ölçeklenmesini sağlar. Dağıtım süreci aşağıdaki adımları takip eder (Şekil 4):

  1. NGC Kayıt Defterine öğeleri gönderin: AI geliştiricileri veya hizmet sağlayıcıları, konteynerler, AI modelleri, Helm grafikler ve diğer kaynaklar gibi gerekli varlıkları NVIDIA NGC Kayıt Defteri’ne gönderir. Bu, çıkarım için hazır varlıkları yönetmek için merkezi bir depo işlevi görür.
  2. Fonksiyonu oluşturun: AI Partner Service kullanarak kullanıcılar, AI modelinin veya hizmetinin nasıl çalışacağını tanımlayan bir fonksiyon oluşturur. Bu adım, altyapı yönetiminin karmaşık yönlerini soyutlar.
  3. Fonksiyonu dağıtın: Oluşturduktan sonra, fonksiyon mevcut hesaplama kaynakları üzerinde dağıtılır. NVCF, etkin bir biçimde dağıtımı yöneterek, çoklu GPU’lar arasında verimli bir şekilde çalışmasını sağlar.
  4. İşçi düğümleri dağıtılır ve ölçeklenir: NVCF, talebe bağlı olarak dinamik olarak işçi düğümlerini sağlamakta ve NVIDIA DGX Cloud veya ortak hesaplama ortamları arasında altyapıyı otomatik ölçeklendirmektedir.
  5. Konteynerleri ve modelleri al: İşçi düğümleri gerekli konteynerleri ve modelleri NGC Kayıt Defteri’nden alır ve en güncel sürümlerin çalıştığından emin olur.
Functions are deployed starting at the AI partner service, which pushes artifacts to the NGC registry in step 1. Then, in step 2, the AI partner service creates the function. In step 3, the AI partner service deploys the function. In step 4, the worker nodes are deployed and scaled. Step 5 allows the NGC registry to fetch containers and models.
Şekil 4. DGX Cloud Serverless Inference için dağıtım süreci

Bu süreç, ISV’lerin ve geliştiricilerin AI yeniliğine odaklanmasını sağlar, altyapı yönetimini ortadan kaldırır ve otomatik ölçekleme, yüksek erişilebilirlik ve maliyet etkin GPU kullanımı avantajlarından faydalanmalarını sağlar.

ISV’ler Nasıl Kullanıyor?

DGX Cloud Serverless Inference, dünya çapında etkileşimli AI deneyimlerini, büyük ölçekli simülasyon ortamlarını ve daha fazlasını desteklemekte ve bu alanda öncülük etmektedir. Aşağıdaki ISV’ler, NVIDIA ön izleme programı aracılığıyla bu teknolojiyi kullanmaktadır:

  • Aible: Veri mühendisliği ve makine öğrenimi iş akışlarını otomatikleştirerek işletmeler için ölçülebilir iş etkisi sunan AI destekli veri bilimi çözümleri sağlayıcısı. Aible, NVIDIA Cloud Functions Serverless GPU’ların, uçtan uca retrieval-augmented generation (RAG) çözümleri için TCO’yu %200 artırmada nasıl bir iyileşme sağladığını göstermiştir.
  • Bria: %100 lisanslı verilerle eğitilmiş modeller sunan geliştiriciler için grafiksel jeneratif AI platformu, metinden görüntü üretimi için inferans ihtiyaçlarını ölçeklendirmek amacıyla NVIDIA Cloud Functions’u kullanmaktadır. Bria, NVIDIA L40S ve NVIDIA H100 GPU’ları kullanarak talep üzerine GPU’ları tüketerek toplam sahip olma maliyetlerini düşürmektedir.
  • Cuebric: Film yapımcıları ve yaratıcıların, kavramları birkaç dakikada fotorealist, film hazır sanal ortamlar ve arka planlara dönüştürmesine olanak tanıyan jeneratif bir AI aracı. Cuebric, AI iş yüklerini küresel ölçekte ölçeklendirmek ve talep üzerine patlamak için NVIDIA Cloud Functions’ı kullanmaktadır.
  • Outerbounds: ML, AI ve veri bilimcileri için altyapı ve araç sağlayıcısıdır. Outerbounds, müşterilerine NVIDIA Cloud Functions üzerinde, talep üzerine ölçekleştirilebilen GPU altyapısı sunmaktadır. Maliyetleri düşürmek için, NVIDIA Cloud Functions’un hızlı soğuk başlatma süresiyle sıfıra ölçeklenebilir örneklerden yararlanmaktadır.

Gelişmiş algılama sistemlerinden yüksek çözünürlüklü simülasyonlara, dinamik AI iş yüklerine kadar DGX Cloud Serverless Inference, optimal performans ve kaynak tahsisi sağlayarak kullanıcıların ihtiyaçlarını karşılamaktadır.

DGX Cloud Serverless Inference ile Başlayın

ISV’ler ve NVIDIA Cloud Ortakları, şimdi DGX Cloud Serverless Inference’ı deneme fırsatına sahiptirler. ISV’ler için, DGX Cloud Serverless Inference’ın farklı hesaplama sağlayıcılarına geçiş yaparken düşük riskli bir yol sunabilir. Bu, ISV’nin özel bulutundan veya NVIDIA Cloud Ortaklarından hesaplama sağlarken, DGX Cloud Serverless Inference’ın farklı hesaplama sağlayıcıları arasında bir “çeviri katmanı” işlevi görmesini sağlar.

NVIDIA Cloud Ortakları için, DGX Cloud ortağı olarak kayıt olmak, ISV’lerin adaptasyonunu kolaylaştırabilir ve ISV’lerin, özel bulutlarından veya DGX Cloud hesaplama ortamlarından, önde gelen NVIDIA Cloud Ortakları tarafından sağlanan hesaplmalara daha sorunsuz bir geçiş yapmalarına olanak tanır.

Daha fazla bilgi edinmek ve 30 günlük bir deneme için kaydolmak için DGX Cloud Serverless Inference sayfasını ziyaret edin.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri