“Uzun Mesafe Veri Merkezi Ağlarında LLM Eğitimini Hızlandırın: NVIDIA Nemo Çerçevesi ile”

Çoklu veri merkezi ile eğitim, AI fabrikalarının vazgeçilmezi haline gelmiştir. Ön eğitim ölçeklendirmesinin artması, daha büyük modellerin oluşturulmasını teşvik ederken, işlem gücü talebi bir tesisin imkanlarını aşmaktadır. İş yüklerini birden fazla veri merkezine dağıtarak, organizasyonlar güç, soğutma ve alan kısıtlamalarının üstesinden gelebilir ve daha büyük, daha doğru modellerin daha verimli bir şekilde eğitilmesini sağlayabilir.

NVIDIA’nın NeMo Framework 25.02 sürümü ve NVIDIA Megatron-Core 0.11.0, çoklu veri merkezi büyük dil modeli (LLM) eğitimini dönüştüren yeni yetenekler sunmaktadır. Bu güncelleme, kullanıcıların eğitimlerini tek bir veri merkezinin fiziksel ve operasyonel sınırlarının ötesine taşımasını sağlayarak, birden fazla lokasyonun birleşik gücünden yararlanarak hiç olmadığı kadar verimlilik ve performans açmaktadır.

Bu yazıda, NeMo Framework ve Megatron-Core’un çoklu veri merkezi eğitiminde devrim yaratan bu önemli gelişmeleri ele alacağız:

Site genelinde yüksek verimlilik: Coğrafi olarak dağılmış binlerce NVIDIA GPU arasında eğitim süreçlerini etkili bir şekilde dağıtarak %96 ölçek verimliliği sağlamak.
Gelişmiş iletişim stratejileri: Hiyerarşik orkestrasyon ve gradyan senkronizasyonu kullanarak veri merkezleri arası gecikmeyi aşmak.
Gerçek dünya başarıları: 340B parametreye sahip bir LLM’nin verimli bir şekilde eğitilmesiyle bu yenilikleri doğrulamak, gelecek nesil AI süper bilgisayarlara zemin hazırlamak.

Neden çoklu veri merkezi eğitimi zor

Trilyon parametreli modellerin eğitimi, sadece daha fazla GPU eklemekten ibaret değil; maliyet ve performansı etkileyen altyapı zorluklarını aşmayı da gerektiriyor. Çoklu veri merkezlerinde hesaplama yönetirken, geliştiriciler yüksek inter-bölge gecikmesi (genellikle 20 milisaniye veya daha fazla) ile başa çıkmak zorundadır. Bu durum gradyan güncellemeleri ve model senkronizasyonu sırasında performans darboğazları oluşturabilir. Bu sorunları ele almak, dağıtılmış LLM eğitim mimarilerini kolaylaştırmakta, performansı artırmakta ve donanım ile enerji verimliliğini maksimize etmektedir.

Ana zorluklar şunlardır:

Yüksek gecikme ve bant genişliği kısıtlamaları: Veri merkezleri arasındaki iletişim yavaş ve sınırlı olabilir, bu da eğitim verimliliğini azaltır.
Senkronizasyon: Dağıtılmış veri merkezlerinin hizalanması, karmaşık protokoller ve teknikler gerektirir.
Traffik yönetimi: Uzun mesafeli ağlar üzerinden veri akışını en aza indirmek, düşük gecikme ve yüksek verimlilik sağlamak açısından gereklidir.

Yüksek verimli çoklu veri merkezi eğitimini sağlamak

Çoklu veri merkezi LLM eğitimindeki zorlukların üstesinden gelmek için, NeMo Framework 25.02 ve Megatron-Core 0.11.0 dört ana yenilik sunuyor:

Bu yetenekler, coğrafi olarak ayrılmış yerlerdeki iletişimi, orkestrasyonu ve hesaplama verimliliğini optimize ederek, dünyanın en büyük AI modellerinin yüksek performanslı ve ölçeklenebilir eğitimini sağlamaktadır.

Uyarlanabilir kaynak orkestrasyonu

Uyarlanabilir kaynak orkestrasyonu, çeşitli GPU’lar arasındaki gecikme ve bant genişliği hiyerarşisini kullanarak çalışan bir dağıtılmış eğitim stratejisidir. İletişim geciklerine ve bant genişliği sınırlara dayanıklı paralel yöntemlerin seçimini ve önceliklendirmesini sağlar, bu da veri merkezi arası geliştirici dağıtımlarında idealdir. Bu tür yapılandırmalarda, model-paralel teknikler—tensor, bağlam ve uzman paralelliği gibi—sık sık yüksek bant genişliği senkronizasyonu gerektirir, bu da yüksek gecikmeli ortamlar için uygun olmayabilir. Bunun yerine veri paralelliği ve boru hattı paralelliği teknikleri tercih edilir çünkü:

Gecikme toleransı: Veri paralelliği, toplu gradyan agregasyonu ile veri merkezi arasındaki daha büyük gecikmelere uyum sağlar.
Bant genişliği verimliliği: Veri paralelliğindeki hiyerarşik azaltma desenleri, veri merkezi aşırı trafiği konsolide ederek bant genişliği gereksinimlerini önemli ölçüde azaltır.
Donanım bağımsızlığı: Her iki yöntem de standart şardalama yoluyla siteler arasındaki donanım farklılıklarını soyutlar.

Paralellik tekniğinin seçimini ağın kısıtları ile uyumlu hale getirerek, uyarlanabilir kaynak orkestrasyonu, her GPU için veri merkezi arası bant genişliği gereksinimini neredeyse 1/N seviyesine düşürmektedir ve bu da geleneksel düz yaklaşımlara kıyasla önemli verimlilik kazançları sağlamaktadır.

Hiyerarşik all-reduce

HAR, gradyanları üç adımda senkronize etmeyi içermektedir:

Her grup veya veri merkezi içinde ReduceScatter,
Veri merkezleri arasında AllReduce.
Her veri merkezi içinde AllGather.

Bu yöntem, uzun mesafeli ağlar üzerindeki trafiği minimize etmekte ve öncelikle veri merkezleri arası iletişimi optimize ederek yüksek verimlilikte düşük gecikme sağlamaktadır. Şekil 1, HAR’ın nasıl çalıştığını açıklamaktadır.

Animation showing how AllReduce works, then how Hierarchical AllReduce (HAR) works, starting with ReduceScatter within each local data center, then an AllReduce across data centers, and finally an AllGather within each local data center. HAR minimizes traffic over long-haul networks by first optimizing inter-data center communication, ensuring high throughput and low latency. — *Şekil 1. HAR açıklaması*

Dağıtılmış optimizer mimarisi

Kısmi veri paralel dağıtılmış optimizer, her veri merkezi içinde yerel ağırlık güncellemelerini ve gradyan azaltmalarını artırarak, siteler arasında tek bir senkronize gradyan azaltma gerçekleştirir. Bu mimari, gerekli olan optimizer durumu çoğaltımını ortadan kaldırırken, veri merkezi arası iletişimi en aza indirir. Veri merkezleri içinde optimizer durumlarını parçalara ayırarak (genel değil), optimizer örneklerini siteler arasında kopyalayarak, ölçeklenme sırasında bellek verimliliğini korumakla birlikte veri merkezi arası trafiği de azaltmaktadır.

Parçalı veri merkezi iletişimleri

İletişimleri parçalara ayırarak ve bu parçaları hesaplama ile üst üste bindirerek, veri merkezi arası iletişim, veri merkezi içi işlemlerin arkasında gizlenebilir. Bu teknik, büyük ölçeklerde eğitim süreçlerinin verimli kalmasını sağlamakta ve siteler arasındaki gecikmeye karşı yüksek tolerans sağlamaktadır.

NVIDIA Nemotron-4 340B’nin çoklu veri merkezi eğitimi

Son zamanlarda, Nemotron-4 340B modelinin büyük ölçekli eğitimini gerçekleştirme fırsatımız oldu. Temel olarak, LLM, tek bir veri merkezinde 3.072 NVIDIA GPU kullanılarak eğitildi.

Sonrasında, modelin eğitimini yaklaşık 1.000 km mesafedeki iki veri merkezi arasında gerçekleştirdik. Tablo 1, bu kurulumun 3.072 GPU ölçeğinde (her veri merkezinde 1.500 GPU ile) temel verimliliğin %96’sından fazlasını başardığını göstermektedir. Bağımsız veri merkezi içi ve arası iletişimlerin üst üste bindirilmesi, verimliliği maksimum seviyeye çıkarmıştır. NeMo Framework ve Megatron-Core’un yeteneklerini kullanarak eğitim süreci olağanüstü verimlilik ve ölçeklenebilirlik elde ederek LLM geliştirme için yeni bir standart oluşturmuştur.

Metric	Tek Veri Merkezi (ORD)	Çoklu Veri Merkezi (ORD + IAD)
Toplam GPU	3.072 GPU	3.072 GPU (1.536 ORD, 1.536 IAD)
GPU Düğümleri	375 düğüm (node başına 8 GPU)	375 düğüm (node başına 8 GPU)
Veri Merkezi Lokasyonları	Oracle Cloud Infrastructure (OCI) – Chicago, IL (ORD)	OCI – Chicago, IL (ORD) ve Ashburn, VA (IAD)
Veri Merkezleri Arasındaki Mesafe	Yok	Yaklaşık 1.000 km
Ölçülen Geri Dönüş Süresi Gecikmesi	Yok	21 milisaniye
Ölçek Verimliliği	Temel (100%)	Tek alan temeline kıyasla %96’dan fazla
Model FLOPS Kullanımı (MFU)	%51	%49
Eğitim Modeli	Nemotron-4 340B	Nemotron-4 340B

Tablo 1. Tek veri merkezi ile çoklu veri merkezi eğitimine kıyasla bir karşılaştırma

Birden Fazla Tesis Üzerinde Süper Bilgisayarı Serbest Bırakmak

Çoklu veri merkezi eğitimi, AI fabrikalarında devrim niteliğinde bir yaklaşım olarak ortaya çıkmakta ve birçok binayı hatta bölgeleri kapsayan dağıtılmış sistemlerin temelini atmaktadır. Gelişmiş ağ ve senkronizasyon teknolojilerini entegre ederek, bu yaklaşım, farklı tesisler arasındaki geniş GPU dizilerini koordine ederek karmaşık eğitim görevlerinin eş zamanlı ve sorunsuz bir şekilde yürütülmesini sağlamaktadır.

NVIDIA’nın GPU veri merkezi platformları, düşük gecikmeli ağ çözümleri ve AI yazılım yığını ile birlikte, benzersiz bir paralellik imkanı sunmaktadır. Bu tam yığın platform, birden fazla veri merkezi üzerinde 500.000’den fazla GPU kullanılabilen süper bilgisayarların yolunu açmaktadır. Bu mimari, yalnızca hesaplama gücünü ölçeklendirmekle kalmaz, aynı zamanda birden fazla tesis arasında iş yüklerini dinamik olarak dengeleyerek güvenilirliği ve esnekliği artırır, darboğazları azaltır ve enerji verimliliğini optimize eder.

Bugün Başlayın

Çoklu veri merkezleri arasında LLM’lerin eğitimini desteklemek için gerekli altyapı, Megatron-Core içinde yerleşik bir şekilde bulunmaktadır ve bu yapı, NVIDIA NeMo Framework ile derin entegrasyona sahiptir. Bu platform, özel generative AI geliştirme için uçtan uca bir çerçeve sunmakta ve büyük dil modelleri (LLM), görsel dil modelleri (VLM), alım modelleri, video modelleri ve konuşma AI’sını içermektedir. NeMo Framework ve NVIDIA NeMo Framework belgeleri ile ilgili daha fazla bilgi edinmek ve GitHub örnekler deposuna ulaşmak için lütfen göz atın.

SON DAKİKA