Colossus’u İnşa Etmek: Supermicro’nun Musk’ın xAI için AI Süper Bilgisayarı

Sunulan: Supermicro


xAI ekibi, Supermicro ve NVIDIA ile iş birliği içinde dünyanın en büyük sıvı soğutmalı GPU küme kurulumunu inşa ediyor. Bu, Grok adında bir yapay zeka sohbet botunu eğitmek ve çalıştırmak için tasarlanmış, 100,000’den fazla NVIDIA HGX H100 GPU’yu, exabaytlarca depolama alanını ve ultra hızlı ağ bağlantılarını içeren devasa bir AI süper bilgisayarıdır.

Memphis, TN’de bulunan bu çok milyar dolarlık veri tesisi, gerekli güç jeneratörleri, trafo ve çoklu hol yapısı olmadan boş bir bina olarak başlamış ve sadece 122 günde operasyonel bir AI süper bilgisayar haline gelmiştir. xAI Colossus kümesinin bu olağanüstü başarısını dünyaya tanıtmak amacıyla, VentureBeat olarak Supermicro’nun katkılarıyla hazırlanan özel detaylı video turunu paylaşıyoruz.

İşte bu devasa girişimin bazı önemli noktaları.

Veri Merkezi İçinde

En büyük AI süper bilgisayarını inşa etmeye karar verdiğinizde, çok büyük bir hesaplama gücünün gerekli olduğu ilk bakışta belli olur. Başladığınız günden itibaren, bu sistemin ilk günden itibaren kurulum için hazır olması ve xAI’nın eşsiz gereksinimlerine özel olarak tasarlanması gerekecektir.

Tasarım, üstte güç kaynaklarının bulunduğu ve sıvı soğutma borularının alt merkezi soğutucuya gittiği standart bir yükseltilmiş zemin veri merkezi ile başlar. Dört hesaplama salonunun her birinde yaklaşık 25,000 NVIDIA GPU bulunmaktadır; bunların yanı sıra depolama alanı, yüksek hızlı fiber optik ağ ve gerekli güç sistemleri yer almaktadır.

XAI Colossus Veri Merkezi Supermicro Sıvı Soğutmalı Sunucular, ServeTheHome katkılarıyla

Sonrasında işler daha özelleşiyor. Her küme, Colossus’un temel yapı taşı olan Supermicro sıvı soğutmalı rafını içeriyor. Her rafta sıvı soğutmalı NVIDIA HGX H100 8-GPU ve iki sıvı soğutmalı x86 CPU bulunan sekiz Supermicro 4U Evrensel GPU sistemi bulunuyor. Her rafta toplamda 64 NVIDIA Hopper GPU yer alıyor. Bu GPU sunucularının sekizi ve bir Supermicro soğutma dağıtım ünitesi ile soğutma dağıtım manifolu bir rafı oluşturuyor. Raflar, 512 GPU ve bir ağ rafı sağlayacak şekilde sekizli gruplar halinde düzenleniyor.

xAI Colossus Veri Merkezi Supermicro 4U Evrensel GPU Sıvı Soğutmalı Sunucuları, günümüzdeki en yoğun ve gelişmiş AI sunucularıdır. Bu kompleks sıvı soğutma sistemi ve sistemi raftan çıkarmadan bakım yapılabilirlik özellikleri ile dikkat çekiyor.

XAI Colossus Veri Merkezi Supermicro 4U Evrensel GPU Sıvı Soğutmalı Sunucu Yakından, ServeTheHome katkılarıyla

Son Düzey Sıvı Soğutmalı Sunucu ve Raf Tasarımı

Yatay 1U raf soğutma dağıtım manifoldu (CDM), her sunucunun üzerinde serin sıvıyı getirirken, ısınmış sıvıyı dışarı atar; hızlı bağlantılar, sıvı soğutma ekipmanını tek elle hızla çıkarıp yeniden takmayı kolaylaştırır. Raf, sıvı soğutmalı NVIDIA HGX H100 ve HGX H200 Tensor Core GPU’lar için sekiz Supermicro 4U Evrensel GPU Sistemini içeriyor. Her sistemin üst rafı, NVIDIA HGX H100 8-GPU kompleksini ve GPU’ları soğutmak için soğutma plakalarını barındırıyor. Alt raf ise anakart, CPU, RAM ve PCIe anahtarları ile birlikte çift soketli CPU’lara ait soğutma plakalarını içeriyor.

Özellikle, Supermicro’nun anakartı, mevcut NVIDIA HGX sunucularında kullanılan dört Broadcom PCIe anahtarını entegre edecek şekilde tasarlandı. Bunun dışında, sektördeki diğer AI sunucuları, sıvı soğutmayı üretim sonrası bir hava soğutmalı tasarıma eklemekteyken, Supermicro’nun sunucuları sıvı soğutma için sıfırdan tasarlanmış özel soğutma bloğuna sahip. Bu tür bir kompak sunum, erişilebilirlik ve bakım kolaylığı, bu sistemleri son derece ölçeklenebilir hale getirir ve Supermicro’yu sektörde öne çıkarır.

Supermicro 4U Evrensel GPU Sistemi, Sıvı Soğutmalı NVIDIA HGX H100 ve HGX H200, SC23’te sergileniyor, ServeTheHome katkılarıyla

Ayrıca, her CDU’nun akış oranı, sıcaklık ve diğer kritik fonksiyonların takibi için kendi izleme sistemi bulunmaktadır. CDU’lar, iki güçlü pompa ve güç kaynağı ile desteklenmiştir; bu sayede birinin arızalanması durumunda, sistemin çalışmasını kesintiye uğratmadan kısa sürede bakım yapabilir veya değiştirebilirsiniz.

Supermicro sunucularının, DIMM’ler, güç kaynakları, düşük güçlü ana kart yönetim denetleyicileri, NIC’ler ve diğer elektronik bileşenler gibi bileşenleri soğutmak için hâlâ sistem fanlarını kullandığını belirtmekte fayda var. Her rafın soğutmasını dengede tutmak için, sunucu fanları ön taraftan daha serin havayı çeker ve ısınıp sıvı soğutmalı arka kapı ısı değiştiricileri aracılığıyla dışarı atar. Ekstra ısı, Supermicro’nun sıvı soğutmalı GPU sunucularından, depolama, CPU hesaplama kümelerinden ve ağ bileşenlerinden de alınır. Fanların kullandığı güç miktarı, hava soğutmalı sunuculara kıyasla büyük ölçüde azaltılmıştır; bu da her sunucu için daha az güç gereksinimi anlamına gelir.

Colossus’un Ağı

Veri merkezinin devasa ağları, AI küme ölçeklemesine yönelik ihtiyaçları karşılamak üzere tasarlanan NVIDIA Spectrum-X Ethernet ağ platformu üzerinde çalışmaktadır. Spectrum-X, AI iş yüklerindeki yüksek talepleri karşılamak için hızlı ve güvenilir veri transferi sağlayan son teknoloji bir ağ platformudur. Ayrıca, daha akıllı veri yönlendirme, gecikmeleri azaltma ve ağ trafiği üzerinde daha fazla kontrol gibi özellikler sunar. Gelişmiş AI fabrika görünürlüğü ve izleme özellikleri de içerir; bu da büyük AI projeleri için idealdir.

Her küme, 400 gigabit/saniye ağı sağlayan NVIDIA Bluefield-3 SuperNIC’leri kullanır. Bu, herhangi bir masaüstü ethernet kablosunun kullanılan temel teknolojisi ile aynıdır; ancak veri merkezinde, 400GbE, yani optik bağlantı başına 400 kat daha hızlıdır. Sistem başına dokuz bağlantı, her GPU hesaplama sunucusu için 3.6Tbps bant genişliği sunar. GPU’lar için RDMA (Uzaktan Doğrudan Bellek Erişimi) ağı, bu bant genişliğinin çoğunu oluşturuyor. Her GPU, kendi NVIDIA BlueField-3 SuperNIC ve Spectrum-X ağ teknolojisi ile eşleştirilmiştir.

xAI Colossus Veri Merkezi Anahtar Fiber 1, ServeTheHome katkılarıyla

GPU RDMA ağının yanı sıra, CPU’lar da farklı bir anahtar yapısı kullanarak 400GbE bağlantısına sahiptir. xAI, GPU’lar için bir ağ ve kümenin geri kalan kısmı için başka bir ağ çalıştırmaktadır; bu, yüksek performanslı hesaplama kümeleri için çok yaygın bir tasarım noktasını temsil eder.

NVIDIA Spectrum SN5600, 64 portlu 800Gb ethernet anahtarı, 128 400-gigabit ethernet bağlantısını bölme ve çalıştırma yeteneğine sahiptir; böylece NVIDIA GPU’lar ve tüm küme maksimum performans seviyelerinde çalışabilir ve ölçeklenebilir. Bu anahtar, çeşitli güvenlik protokollerini kaldırma, tıkanmış bir ağı önlemek için gelişmiş akış yönetimi sunma ve kümedeki tüm CPU süper bilgisayar görevlerini ele alma yeteneği ile, bu tür bir anahtarın dünyadaki ilk uygulamalarından biridir.

Tüm bu çalışmalar, şimdiye kadar yapılmış en büyük süper bilgisayarı geride bırakıyor. xAI, Supermicro ve NVIDIA iş birliği ile sınırları zorlamaya devam ederken, yeni bir süper bilgisayar çağını başlatacak gelişmeler izlemeye devam edeceğiz.

Colossus içindeki detayları görmek istemez misiniz? Yukarıdaki video turunu kaçırmayın!


Exit mobile version