SON DAKİKA

Nvdia

“Yeni GB300 NVL72 Özellikleri ile AI için Sürekli Güç Nasıl Sağlanır?”

Elektrik şebekesi, genellikle sabit yükleri desteklemek amacıyla tasarlanmıştır; bu yükler arasında aydınlatma, ev aletleri ve sürekli güçte çalışan endüstriyel makineler yer alır. Ancak veri merkezleri, özellikle yapay zeka (YZ) iş yükleri ile çalıştıklarında, bu denklemi değiştirmiştir.

Veri merkezleri, enerji santralleri ve transformatör kapasitesinin önemli bir kısmını tüketmektedir. Geleneksel olarak, bu merkezlerdeki farklı aktiviteler enerji tüketimini dengeleyebilmekteydi. Ancak büyük ölçekli YZ modellerinin eğitimi ani güç taleplerine yol açmakta ve şebeke operatörleri için özel zorluklar oluşturmaktadır:

  • Ani bir güç talebi artışı olduğunda, jenerasyon kaynaklarının yanıt vermesi bir dakikadan 90 dakikaya kadar sürebilir, bu da fiziksel sınırlamalardan kaynaklanmaktadır.
  • Tekrarlanan güç transiyantları, ekipman üzerinde rezonansa ve strese neden olabilir.
  • Eğer veri merkezi aniden güç tüketimini azaltırsa, enerji üretim sistemleri fazladan enerji ile karşılaşır ve bu enerjinin bir çıkışı olmaz.

Bu ani değişimler, diğer şebeke müşterileri üzerinde voltajda dalgalanmalar olarak hissedilmektedir. Bu yazıda, NVIDIA’nın GB300 NVL72 modelinde uyguladığı yeni güç kaynağı birimi (PSU) ile bu sorunu nasıl ele aldığını detaylandıracağız. Bu yeni çözüm, YZ iş yüklerinden kaynaklanan güç dalgalanmalarını dengeler ve pik şebeke talebini %30’a kadar azaltır. Ayrıca bu çözüm, GB200 NVL72 sistemlerinde de kullanılacaktır.

Senkronize İş Yüklerinin Etkisi

YZ eğitimi, binlerce GPU’nun aynı anda aynı hesaplamayı farklı veriler üzerinde gerçekleştirmesiyle gerçekleşir. Bu senkronizasyon, şebeke seviyesinde güç dalgalanmalarına neden olur. Geleneksel veri merkezi iş yüklerinden farklı olarak, zıt görevler yükü “dengeler”, YZ iş yükleri ise aniden yüksek güç durumlarına geçiş yapar. Bu durumu Şekil 1 göstermektedir.

A chart showing how thousands of GPUs processing an AI workload consume power simultaneously and synchronously shift between high and lower power states. Time is depicted on the x-axis and power on the y-axis. The line chart shows the power profile wave form, with a fast ramp-up in power at the workload start, followed by many successive sharp up-and-down power cycles until there is a fast ramp-down at workload end.
Şekil 1. YZ iş yüklerini işlerken binlerce GPU’nun aynı anda güç tüketiminde yukarı ve aşağı hareketleri.

GPU’ları ısı haritası şeklinde görselleştirmek, YZ veri merkezlerinin güç sorunlarını açıklığa kavuşturmaktadır. (Aşağıdakine bakınız, Şekil 2.) Geleneksel veri merkezi iş yükleri, bilgisayar altyapısında senkron olmayan işlemeler sergilerken, YZ eğitimi iş yükü, GPU’ların senkron bir şekilde çalışması nedeniyle, toplam güç tüketimini tek bir düğümün güç deseniyle ilişkili hale getirir.

Two charts showing a GPU power consumption heat map. Traditional data center workloads show a random heat map pattern of power consumption over time across a GPU cluster. AI training workloads show color bars as all GPUs enter the same power consumption state across the cluster, ramping up and down as a whole.
Şekil 2. GPU güç tüketim ısı haritası

GB300 NVL72’de Güç Dengeleme

NVIDIA, bu zorlukları aşmak için GB300 platformunda kapsamlı bir güç dengeleme çözümü sunmaktadır. Bu çözüm, farklı çalışma aşamaları boyunca çeşitli mekanizmaları içermektedir. Aşağıdaki Şekil 3, rafın güç talebini yumuşatan güç sınırı, enerji depolama ve GPU yanma mekanizmalarını göstermektedir. Her bir mekanizmayı soldan sağa inceleyeceğiz.

YZ eğitimi GPU güç tüketimini gri hatla gösteriyoruz. Ardından, istenen güç profilini göstermek için yeşil bir hat ekliyoruz; bu daha yumuşak bir artış, sabit bir seviyede durma ve yumuşak bir düşüşü ifade etmektedir.

Yeni güç sınırı özelliği ile, iş yükünün başlangıcında GPU güç çekimi, güç denetleyicisi tarafından sınırlanır. Yeni maksimum güç seviyeleri GPU’lara gönderilir ve şebekenin tolerans gösterebileceği rampalarla yavaşça artırılır. Ramp-down için daha karmaşık bir strateji kullanılmaktadır; eğer iş yükü aniden sona ererse, GPU yanma sistemi, GPU’ların özel bir güç yakıcı modunda çalışarak gücü boşaltmaya devam eder. Bu, ani bir düşüş yerine yumuşak bir geçiş sağlar (Şekil 3 ve 5).

A chart showing time on the x-axis and power on the y-axis. The line chart shows the same power profile as Figure 1. Added are ramp-up and ramp-down periods highlighted in blue. The solution in ramp-up is a power cap driver that quickly but smoothly allows power draw to rise.
Şekil 3. Güç dengeleme çözümü

Steady-state operasyon sırasında hızlı ve kısa süreli güç dalgalanmaları için, GB300 NVL72 güç raflarına özel elektrolitik kapasitörler ile entegre edilmiş enerji depolama öğeleri bulunmaktadır. Enerji depolama, düşük GPU güç talebi zamanlarında şarj olurken, yüksek GPU güç talebi zamanlarında deşarj eder (Şekil 4).

A chart showing how the new GB300 NVL72 power smoothing feature works. The chart shows the same power profile as Figure 1, but in this chart, the trough between times of high power needs allow charging of the energy storage. And the peaks in power need are when stored energy gets discharged. The result is the flat power profile line in green, depicting smooth power consumption during the steady state in between workload start and end.
Şekil 4. Enerji depolama davranışı

Ramp-down çözümü, çalışan ortalama gücün düştüğünü algılayan yazılım algoritmasını içeren güç yakma donanımıdır. Güç çıkarımı, iş yükü devam ederse derhal devreden çıkar, iş yükü sırasına geri dönmezse yavaş yavaş azalır. İş yükü bittiğinde, yakıcı, şebeke imkanlarına uygun bir hızda güç çekimini azaltarak devreden çıkar.

Bu işlemler için ayarlanabilir parametreler vardır. Aşağıdaki tabloda, kullanıcılara sunulan önemli parametreler yer almaktadır; yukarıdaki şekil ile ilk sütundaki anahtar parametrelerin görsel rehberi bulunmaktadır. Bu parametreler, NVIDIA SMI aracı veya Redfish protokolü kullanılarak ayarlanabilir.

The graphic shows time on the x-axis and power on the y-axis. The Parameter labels in the table below match the time periods from left to right: GPU-active floor power (characterized by a varying sinusoidal GPU power profile line), GPU-idle floor power (characterized by a GPU burn green time block), GPU idle time before ramp-down (characterized by a low power profile line and a quick GPU burn green time block), and ramp-down rate (characterized by a smooth downward sloe on the GPU burn time block).
Şekil 5. Anahtar yapılandırma parametrelerinin güç taleplerini nasıl etkilediğini gösteren grafik.
The parameter labels in the table match the time periods from left to right and are reflected in Figure 5 above: GPU-active floor power (characterized by a varying sinusoidal GPU power profile line), GPU-idle floor power (characterized by a GPU burn green time block), GPU idle time before ramp-down (characterized by a low power profile line and a quick GPU burn green time block), and ramp-down rate (characterized by a smooth downward slope on the GPU burn time block).
Tablo 1. Güç taleplerini etkileyen anahtar yapılandırma parametreleri.

Ölçülen Faydalar ve Sonuçlar

Önceki nesil (GB200) ve yeni (GB300) enerji depolama özellikli güç kaynakları ile yapılan deneysel sonuçlar, önemli iyileşmeler göstermektedir. Bunu göstermek amacıyla GB200 rafındaki bir güç rafını aletlerle donattık (Şekil 6):

A diagram showing the measurement set-up for instrumenting the power shelf. AC input goes into the power shelf, while DC goes out the compute tray.
Şekil 6. Güç rafını aletlerle donatma ölçüm seti.

Eski güç kaynağı ile şebekeden çekilen AC güç, raf güç tüketimindeki dalgalanmalara benzemektedir. Yeni enerji depolama destekli güç rafları ile bu güç varyasyonları büyük ölçüde ortadan kalktığı gözlemlenmiştir. Megatron LLM eğitimi sırasında, şebekeye görünen pik güç talebinin %30 azaltıldığı ve hızlı dalgalanmaların kayda değer ölçüde azaldığı gözlemlenmiştir (Şekil 7).

Using the same rack and same workload, charts using a GB200 PSU without energy storage on the left and a GB300 PSU with energy storage on the right. The charts show AC power in and DC power out over time for each PSU configuration under test. AC in for the GB200 PSU shows dense power fluctuations similar to and reflecting the large number of power spikes displayed in the DC out chart. AC in for the GB300 PSU shows the smoothing of the power variations with a 30% lower average peak. The DC out chart shows the same pattern of power spikes associated with the same workload and rack for the GB300 PSU.
Şekil 7. Aynı raf ve aynı iş yükü ile enerji depolama olmayan ve olan güç kaynaklarının performans karşılaştırması.

GB300 güç kaynağının içine baktığımızda, hacmin yaklaşık yarısının enerji depolama için kapasitörlerle dolu olduğu görülmektedir. NVIDIA, güç elektroniğini LITEON Technology ile optimize ederek, kalan alanı her GPU için 65 joule’luk enerji depolama ile doldurmuştur. Yeni bir şarj yönetim kontrolörü ile birlikte, raf seviyesinde hızlı geçici güç dengeleme çözümü sunmaktadır.

A photo from power supply vendor LITEON Technology showing the inside of a GB300 power supply unit, with the energy storage area highlighted in green.
Şekil 8. GB300 güç kaynağı biriminin iç görünümü, enerji depolama alanı yeşil renkte vurgulanmıştır.

Sistem Tasarımının Etkileri

Enerji depolamanın entegrasyonu, sadece geçişleri dengelerken aynı zamanda geniş veri merkezi için pik talep gereksinimlerini de azaltmaktadır. Önceden, tesislerin maksimum anlık güç tüketimi için provisioning yapılması gerekiyordu. Artık, etkili enerji depolama ile, provisioning hedef ortalama tüketime daha yakın olabilir, bu da aynı güç bütçesi içinde daha fazla rafı veya toplam güç tahsisini azaltmayı mümkün kılar.

Tasarım, raftaki dalgalanmaların tolere edilebileceğini garanti eder; hesaplama düğümleri ve iç DC hatları, hızlı güç durum değişikliklerine dayanacak şekilde inşa edilmiştir. Enerji depolama mekanizması, yalnızca şebkeye görünen yük profilini optimize etmek için kullanılır ve utility’ye enerji geri sağlamaz.

Hem GB200 hem de GB300 NVL72 sistemleri, her rafta birden fazla güç rafı barındırmaktadır. Bu nedenle, enerji depolama ve yük dengeleme stratejilerinin, raf ve veri salonu seviyelerinde toplulaştırma dikkate alınarak uygulanması gerekmektedir. Pik güçteki azalmalar, ya artan raf yoğunluğuna ya da tüm veri merkezi için azaltılmış provisioning gereksinimlerine olanak tanır.

Sonuçlar

GB300 NVL72 güç raflarında enerji depolama ve gelişmiş ramp-rate yönetim algoritmalarındaki yenilikler, şebkeye sunulan pik ve geçici yükte önemli bir azalma sağlamaktadır. Enerji depolama olan gelişmiş PSU’lar ve güç sınırı ile güç yakma unsurlarını uygulamak için gereken donanım ve yazılım, GB300 NVL72 ile kullanılabilir olacak.

Tüm veri merkezi operatörlerinin, güç tüketimini optimize etmek, artan hesaplama yoğunluğuna olanak tanımak ve işletme maliyetlerini düşürmek için gelişmiş güç dengeleme ve enerji depolama teknolojilerini entegre etmeyi düşünmeleri gerekmektedir.

Bu araştırmaya katkıda bulunanlar: Jared Huntington, Gabriele Gorla, Apoorv Gupta, Mostafa Mosa, Chad Plummer, Nilesh Dattani, Tom Li, Pratik Patel, Kevin Wei ve Ajay Kamalvanshi.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri