SON DAKİKA

Nvdia

NVIDIA Gözetim ile AI Faktörlerini Otomatikleştirme

Son dönemlerin gelişmiş yapay zeka modelleri, örneğin DeepSeek-R1, işletmelerin kendi verileri ve uzmanlıklarıyla keskin yapay zeka modelleri oluşturmasına olanak tanıyor. Bu modeller, her zamankinden daha çeşitli zorlukları üstlenerek özel kullanımlara göre özelleştirilebiliyor.

Erken dönem yapay zeka benimseyenlerin başarıları doğrultusunda, birçok organizasyon şimdi tam ölçekli üretim yapay zeka fabrikalarına odaklanıyor. Ancak, yapay zeka fabrikalarının kurulumu karmaşık ve zaman alıcı bir süreçtir ve bu, dikey spesifik yapay zeka oluşturma hedefinden oldukça farklıdır.

Bu süreç, karmaşık altyapıyı yöneten ve yönlendiren otomasyon sistemlerinin oluşturulmasını, en yeni platformlar hakkında uzmanlık sahipliğiyle site güvenilirlik mühendislerinden (SRE) oluşan bir ekip ile sürdürülmesini ve hiperskalere özgü verimlilik sağlayan ölçekli süreçlerin geliştirilmesini içeriyor. Geliştiricilerin, yapay zeka altyapısının gücünden, hiperskalere özgü çeviklik, verimlilik ve ölçekle yararlanmaları gerekiyor; ancak bununla birlikte maliyet, karmaşıklık ve uzmanlık yüklerinden kaçınmalılar.

Bu yazıda, NVIDIA Mission Control adlı, NVIDIA referans mimarileri kullanarak inşa edilen yapay zeka fabrikalarının güçlenmesine yönelik entegre yazılım yığını, bu zorlukları nasıl çözdüğünü ve organizasyonların altyapıyı yönetmek yerine modellere odaklanmalarını sağladığını keşfedeceğiz.

İşletme Altyapısı ve Geliştirici Verimliliği için Yeni Standart

NVIDIA Mission Control, BT yöneticilerine yapay zeka iş yükü kullanımını, performansını ve ölçeklenebilirliğini optimize etmek için güçlü araçlar sunar. Otomatik iş yükü kurtarma sistemi sayesinde, geliştiriciler donanım anormallikleri veya bakımlar sırasında bile ürüniveliğini sürdürebilir; bu da kendilerine eşsiz bir çalışma süresi ve daha hızlı yapay zeka deneyleri sağlar. NVIDIA Mission Control, binlerce GPU’yu yöneterek olağanüstü operasyonel verimlilik sağlamak için gelişmiş küme çapında kontrol ve görünürlük sunar.

Software stack for AI factories including NVIDIA Mission Control and NVIDIA AI Enterprise.
Şekil 1. Kapsamlı ve entegre yazılım yığını, hem işletme BT’sinin hem de model oluşturucuların ihtiyaçlarını karşılar

NVIDIA Mission Control’ün Temel İşlevleri

NVIDIA Mission Control’ün temel işlevleri arasında ölçeklenebilir kontrol paneli, gelişmiş küme tahsisi, telemetri ve gözlemleme, yapay zeka iş yükü yönetimi ve daha fazlası bulunmaktadır.

Hızlı Dağıtım için Ölçeklenebilir Kontrol Paneli

Aİ fabrikası dağıtımını hızlandıran temel, ölçeklenebilir kontrol paneli, eğitim ve çıkarım iş yükleri için merkezi yapılandırma, yönetim ve gözlemleme sağlar. Esneklik için tasarlanan bu kontrol paneli, NVIDIA DGX SuperPOD üzerinde, hem NVIDIA DGX B200 sistemleri hem de NVIDIA DGX GB200 sistemleri ile aynı yapay zeka fabrikası içinde dağıtım desteği sağlar.

Gelişmiş Küme Tahsisi

NVIDIA Mission Control’ün, NVIDIA Base Command Manager ile desteklenen gelişmiş küme tahsisi özelliği, yapay zeka fabrikası operasyonlarını basitleştirir ve otomatik iş akışları ile dağıtım süresini önemli ölçüde kısaltır. Keskin mimariler, örneğin NVIDIA GB200 NVL72 gibi, rack yönetimi yetenekleri, sızıntı tespit politikaları ve binlerce GPU için tahsis ile bir arada bulunur.

Entegre envanter yönetimi ve sezgisel görselleştirmeler sayesinde BT ekipleri, gerçek zamanlı varlık takibi ve sürdürülebilir bakımınızı sağlar. Akıllı güç optimizasyon politikaları yöneticilerin, hem kullanıcı hem de veri merkezi seviyesinde performansı ayarlamalarına olanak tanır; bu da verimliliği maksimize eder. Ayrıca, standartlaştırılmış arabirimler aracılığıyla veri merkezi bina yönetim sistemleri (BMS) için gelişmiş entegrasyon ile NVIDIA Mission Control, geleceğe yönelik bir yapay zeka altyapısı sağlar.

Diagram of NVIDIA Mission Control sharing data with building management systems.
Şekil 2. Bina yönetim sistemleri ile geliştirilmiş koordinasyon, hızlı sızıntı tespiti dahil olmak üzere güç ve soğutma olaylarını kontrol eder

Telemetri ve Gözlemleme

Telemetri ve gözlemleme yığını, IT yöneticilerine yapay zeka altyapısının performansına derin görünürlük sağlayan gerçek zamanlı izleme ve gelişmiş analizler sunar. Büyük ölçek ve dayanıklılık için tasarlanan sistem, binlerce GPU, NVIDIA Spectrum-X Ethernet ve NVIDIA Quantum InfiniBand anahtarı ile paralel veri toplama sağlar. Bu sistem, NVIDIA Unified Fabric Manager (UFM) ve NVIDIA NMX Manager tarafından desteklenmektedir.

Merkezi bir gözlemleme merkezi, anahtar sistem metriklerini izleme, görselleştirme ve uyarı için zaman serisi veritabanına işler. Merkezdeki paneller, proaktif uyarılar ve akıllı günlük yönetimi ile NVIDIA Mission Control, BT yöneticilerine yapay zeka fabrikalarının kontrolünü ve operasyonel verimliliğini yüksek seviyede sağlar.

Doğrulama ve Tanılama

NVIDIA Mission Control, yapay zeka fabrikasının kapsamlı doğrulamasını sağlar. Temel işlevsellikten karmaşık etkileşimlere kadar bileşenleri titizlikle doğrular. MLPerf benchmark performansında sektörde lider bir konum elde eden NVIDIA’nın AI süper bilgisayarları Selene, Eos ve daha fazlasında kullanılan ölçüm çerçevesine dayanan bu kaynak, kurulumdan itibaren gerçek zamanlı sağlık izleme ve erken sorun tespiti sağlıyor. BT yöneticileri, AI altyapılarını ömürleri boyunca değerlendirmek için bu talep üzerine sağlık kontrollerini kullanabilir; bu da yüksek performans ve güvenilirlik sağlar.

Yapay Zeka İş Yükü Yönetimi

NVIDIA Run:ai platformu, merkezi bir kontrol paneli ile akıllı küme yönetimini entegre eden kurumsal düzeyde yapay zeka iş yükü orkestrasyonu sunar. Bu sistem, GPU kullanımını 5 katına kadar artırmayı sağlayarak çoklu küme verimliliğini sağlar. Kubernetes tabanlı olan bu entegrasyon, NVIDIA DGX GB300 gibi son nesil mimarilerin potansiyelini açığa çıkarmak için NVLink topoloji farkındalığını ve yerleşik sağlık kontrol işlevlerini destekler. Geliştiriciler ayrıca iş yükü yönetimi için Slurm kullanma esnekliğine sahip olup, bu da araştırma laboratuvarlarından kurumsal çapta dağıtımlara kadar ölçeklenebilir bir yapay zeka altyapısının sağlanmasına yardımcı olur.

Otonom Kurtarma Motoru

NVIDIA Mission Control, geniş ölçekli eğitim çalışmalarında arka planda çalışan bir otonom kurtarma motoru bunlarla birlikte çalışır ve bu nedenle yapay zeka eğitim güvenilirliğini artırır. Olay odaklı, mikro hizmetler, iş yükü kesintilerini tespit eder, izole eder ve çözer; bu da yapay zeka fabrikalarında GPU kullanımını artırır. Otonom kurtarma motoru, Slurm ile entegre edilir ve iş yüklerini yönetmek için NVIDIA Run:ai kullanır.

Diagram of capabilities across the application, scheduler, storage and compute layers before and after NVIDIA Mission Control.
Şekil 3. NVIDIA Mission Control, geliştirici verimliliği ve altyapı dayanıklılığı için sorunları tanımlayıp, izole edip, müdahale etmeden geri kazanım sağlar

Otonom kurtarma motoru, gerçek zamanlı sistem sağlığını analiz ederek anomalileri sürekli tespit eder. Bu süreç, AI modelleri ve önceden tanımlanmış kurallar kullanarak işletimle ilgili sorunları tanımlayıp belirli donanım davranışlarıyla ilişkilendirir. Anomaliler ortaya çıktığında, NVIDIA Mission Control devreye girer—en son iyi duruma ait kontrol noktasından işi başlatarak müdahale eder; bu da geliştiricilerin veya SRE’lerin ilerlemeyi manuel olarak izlemelerini gerektirmez. Bu, duraklamayı en aza indirir ve kurtarma süresini 10 kat hızlandırarak daha hızlı eğitim ve çıkarım işlemlerine neden olur. Arızalı donanımlar otomatik olarak hariç tutulur; böylece sorunsuz bir yürütme sağlanır.

Bu süreçte NVIDIA Mission Control, tanıları devralır ve sorunlu donanımların kökenlerini belirler. Bu tanılama işlemleri, NVIDIA’nın yapay zeka fabrikalarını kurma tecrübesine dayanmakta olup, geliştiricilerin manuel hata ayıklama çabalarını azaltır. Çalışma akışı motoru, otomatik kurtarma oyun kitaplarını yürütür; sağlıklı bileşenleri onarıp yeniden kullanıma kazandırır.

Eğer bir bileşen kurtarılamazsa, NVIDIA Mission Control bunu iade için işaretler. Yazılım, NVIDIA Kurumsal Destek ile bir destek talebi başlatabilir ve böylece çözüm sürecini hızlı bir şekilde hızlandırır. Bu akıllı organizasyon, yapay zeka fabrikası kesintilerini minimize eder ve verimliliği maksimum düzeye çıkarır; böylece geliştiricilerin sonuç almalarını daha tahmin edilebilir hale getirir.

NVIDIA Mission Control ile Başlayın

Yapay zeka fabrikası, yalnızca geleneksel bir veri merkezi değildir; bu, kritik görev yüklere hizmet eden bir alt yapıdır ve organizasyonların yapay zeka yatırımlarını hızlandırmalarına olanak tanır. Organizasyonlar yapay zekayı genişletirken, odak noktaları model oluşturucuları güçlendirmek ve yapay zeka deneylerini hızlandırmak üzerinde yoğunlaşır; bu da daha hızlı pazara ulaşmak ve rekabet avantajı sağlamak için kritik öneme sahiptir.

NVIDIA Mission Control ile işletmeler, iş yükleri ile altyapı katmanı arasında daha akıcı yapay zeka operasyonları elde ederler ve uzmanlıklarının otomasyonu ile birlikte yeni yazılım çözümlerinden yararlanırlar. NVIDIA Mission Control, NVIDIA Blackwell veri merkezlerini besleyen temel bir bileşendir; eğitim ve çıkarımda anlık çeviklik sağlarken altyapı dayanıklılığına yönelik tam katmanlı zeka sunar.

Artık her işletme, hiperskal düzeyinde yapay zeka kullanma imkânına sahiptir; böylece yapay zeka deneyimlerini basitleştirebilir ve hızlandırabilir. Daha fazla bilgi için, NVIDIA GTC 2025 oturumunun talebe açık tekrarını izleyin: Gelecek Nesil Veri Merkezleri: Akıllı Otomasyon ve Entegre Gözlemleme için En Yüksek Geliştirici Verimliliği.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri