Elektrik şebekesi, genellikle sabit yükleri desteklemek amacıyla tasarlanmıştır; bu yükler arasında aydınlatma, ev aletleri ve sürekli güçte çalışan endüstriyel makineler yer alır. Ancak veri merkezleri, özellikle yapay zeka (YZ) iş yükleri ile çalıştıklarında, bu denklemi değiştirmiştir.
Veri merkezleri, enerji santralleri ve transformatör kapasitesinin önemli bir kısmını tüketmektedir. Geleneksel olarak, bu merkezlerdeki farklı aktiviteler enerji tüketimini dengeleyebilmekteydi. Ancak büyük ölçekli YZ modellerinin eğitimi ani güç taleplerine yol açmakta ve şebeke operatörleri için özel zorluklar oluşturmaktadır:
- Ani bir güç talebi artışı olduğunda, jenerasyon kaynaklarının yanıt vermesi bir dakikadan 90 dakikaya kadar sürebilir, bu da fiziksel sınırlamalardan kaynaklanmaktadır.
- Tekrarlanan güç transiyantları, ekipman üzerinde rezonansa ve strese neden olabilir.
- Eğer veri merkezi aniden güç tüketimini azaltırsa, enerji üretim sistemleri fazladan enerji ile karşılaşır ve bu enerjinin bir çıkışı olmaz.
Bu ani değişimler, diğer şebeke müşterileri üzerinde voltajda dalgalanmalar olarak hissedilmektedir. Bu yazıda, NVIDIA’nın GB300 NVL72 modelinde uyguladığı yeni güç kaynağı birimi (PSU) ile bu sorunu nasıl ele aldığını detaylandıracağız. Bu yeni çözüm, YZ iş yüklerinden kaynaklanan güç dalgalanmalarını dengeler ve pik şebeke talebini %30’a kadar azaltır. Ayrıca bu çözüm, GB200 NVL72 sistemlerinde de kullanılacaktır.
Senkronize İş Yüklerinin Etkisi
YZ eğitimi, binlerce GPU’nun aynı anda aynı hesaplamayı farklı veriler üzerinde gerçekleştirmesiyle gerçekleşir. Bu senkronizasyon, şebeke seviyesinde güç dalgalanmalarına neden olur. Geleneksel veri merkezi iş yüklerinden farklı olarak, zıt görevler yükü “dengeler”, YZ iş yükleri ise aniden yüksek güç durumlarına geçiş yapar. Bu durumu Şekil 1 göstermektedir.

GPU’ları ısı haritası şeklinde görselleştirmek, YZ veri merkezlerinin güç sorunlarını açıklığa kavuşturmaktadır. (Aşağıdakine bakınız, Şekil 2.) Geleneksel veri merkezi iş yükleri, bilgisayar altyapısında senkron olmayan işlemeler sergilerken, YZ eğitimi iş yükü, GPU’ların senkron bir şekilde çalışması nedeniyle, toplam güç tüketimini tek bir düğümün güç deseniyle ilişkili hale getirir.

GB300 NVL72’de Güç Dengeleme
NVIDIA, bu zorlukları aşmak için GB300 platformunda kapsamlı bir güç dengeleme çözümü sunmaktadır. Bu çözüm, farklı çalışma aşamaları boyunca çeşitli mekanizmaları içermektedir. Aşağıdaki Şekil 3, rafın güç talebini yumuşatan güç sınırı, enerji depolama ve GPU yanma mekanizmalarını göstermektedir. Her bir mekanizmayı soldan sağa inceleyeceğiz.
YZ eğitimi GPU güç tüketimini gri hatla gösteriyoruz. Ardından, istenen güç profilini göstermek için yeşil bir hat ekliyoruz; bu daha yumuşak bir artış, sabit bir seviyede durma ve yumuşak bir düşüşü ifade etmektedir.
Yeni güç sınırı özelliği ile, iş yükünün başlangıcında GPU güç çekimi, güç denetleyicisi tarafından sınırlanır. Yeni maksimum güç seviyeleri GPU’lara gönderilir ve şebekenin tolerans gösterebileceği rampalarla yavaşça artırılır. Ramp-down için daha karmaşık bir strateji kullanılmaktadır; eğer iş yükü aniden sona ererse, GPU yanma sistemi, GPU’ların özel bir güç yakıcı modunda çalışarak gücü boşaltmaya devam eder. Bu, ani bir düşüş yerine yumuşak bir geçiş sağlar (Şekil 3 ve 5).

Steady-state operasyon sırasında hızlı ve kısa süreli güç dalgalanmaları için, GB300 NVL72 güç raflarına özel elektrolitik kapasitörler ile entegre edilmiş enerji depolama öğeleri bulunmaktadır. Enerji depolama, düşük GPU güç talebi zamanlarında şarj olurken, yüksek GPU güç talebi zamanlarında deşarj eder (Şekil 4).

Ramp-down çözümü, çalışan ortalama gücün düştüğünü algılayan yazılım algoritmasını içeren güç yakma donanımıdır. Güç çıkarımı, iş yükü devam ederse derhal devreden çıkar, iş yükü sırasına geri dönmezse yavaş yavaş azalır. İş yükü bittiğinde, yakıcı, şebeke imkanlarına uygun bir hızda güç çekimini azaltarak devreden çıkar.
Bu işlemler için ayarlanabilir parametreler vardır. Aşağıdaki tabloda, kullanıcılara sunulan önemli parametreler yer almaktadır; yukarıdaki şekil ile ilk sütundaki anahtar parametrelerin görsel rehberi bulunmaktadır. Bu parametreler, NVIDIA SMI aracı veya Redfish protokolü kullanılarak ayarlanabilir.


Ölçülen Faydalar ve Sonuçlar
Önceki nesil (GB200) ve yeni (GB300) enerji depolama özellikli güç kaynakları ile yapılan deneysel sonuçlar, önemli iyileşmeler göstermektedir. Bunu göstermek amacıyla GB200 rafındaki bir güç rafını aletlerle donattık (Şekil 6):

Eski güç kaynağı ile şebekeden çekilen AC güç, raf güç tüketimindeki dalgalanmalara benzemektedir. Yeni enerji depolama destekli güç rafları ile bu güç varyasyonları büyük ölçüde ortadan kalktığı gözlemlenmiştir. Megatron LLM eğitimi sırasında, şebekeye görünen pik güç talebinin %30 azaltıldığı ve hızlı dalgalanmaların kayda değer ölçüde azaldığı gözlemlenmiştir (Şekil 7).

GB300 güç kaynağının içine baktığımızda, hacmin yaklaşık yarısının enerji depolama için kapasitörlerle dolu olduğu görülmektedir. NVIDIA, güç elektroniğini LITEON Technology ile optimize ederek, kalan alanı her GPU için 65 joule’luk enerji depolama ile doldurmuştur. Yeni bir şarj yönetim kontrolörü ile birlikte, raf seviyesinde hızlı geçici güç dengeleme çözümü sunmaktadır.

Sistem Tasarımının Etkileri
Enerji depolamanın entegrasyonu, sadece geçişleri dengelerken aynı zamanda geniş veri merkezi için pik talep gereksinimlerini de azaltmaktadır. Önceden, tesislerin maksimum anlık güç tüketimi için provisioning yapılması gerekiyordu. Artık, etkili enerji depolama ile, provisioning hedef ortalama tüketime daha yakın olabilir, bu da aynı güç bütçesi içinde daha fazla rafı veya toplam güç tahsisini azaltmayı mümkün kılar.
Tasarım, raftaki dalgalanmaların tolere edilebileceğini garanti eder; hesaplama düğümleri ve iç DC hatları, hızlı güç durum değişikliklerine dayanacak şekilde inşa edilmiştir. Enerji depolama mekanizması, yalnızca şebkeye görünen yük profilini optimize etmek için kullanılır ve utility’ye enerji geri sağlamaz.
Hem GB200 hem de GB300 NVL72 sistemleri, her rafta birden fazla güç rafı barındırmaktadır. Bu nedenle, enerji depolama ve yük dengeleme stratejilerinin, raf ve veri salonu seviyelerinde toplulaştırma dikkate alınarak uygulanması gerekmektedir. Pik güçteki azalmalar, ya artan raf yoğunluğuna ya da tüm veri merkezi için azaltılmış provisioning gereksinimlerine olanak tanır.
Sonuçlar
GB300 NVL72 güç raflarında enerji depolama ve gelişmiş ramp-rate yönetim algoritmalarındaki yenilikler, şebkeye sunulan pik ve geçici yükte önemli bir azalma sağlamaktadır. Enerji depolama olan gelişmiş PSU’lar ve güç sınırı ile güç yakma unsurlarını uygulamak için gereken donanım ve yazılım, GB300 NVL72 ile kullanılabilir olacak.
Tüm veri merkezi operatörlerinin, güç tüketimini optimize etmek, artan hesaplama yoğunluğuna olanak tanımak ve işletme maliyetlerini düşürmek için gelişmiş güç dengeleme ve enerji depolama teknolojilerini entegre etmeyi düşünmeleri gerekmektedir.
Bu araştırmaya katkıda bulunanlar: Jared Huntington, Gabriele Gorla, Apoorv Gupta, Mostafa Mosa, Chad Plummer, Nilesh Dattani, Tom Li, Pratik Patel, Kevin Wei ve Ajay Kamalvanshi.