Hızlandırılmış hesaplama, geleneksel CPU hesaplamalara kıyasla performans ve enerji verimliliğinde büyük sıçramalar sağlıyor. Bu yeniliklerin sunulması, veri merkezi ölçeğinde çipler, sistemler, ağlar, yazılımlar ve algoritmalar dahil olmak üzere tam yığın inovasyon gerektiriyor. En uygun enerji verimliliği ile doğru iş yükü için doğru mimarinin seçilmesi, veri merkezinizin performansını maksimize etmek ve karbon ayak izini minimize etmek açısından kritik öneme sahip.
İş yükleri giderek GPU’lar tarafından hızlandırılsa da, birçok kullanım durumu hala geleneksel CPU’lar üzerinde çalışmaya devam ediyor. Özellikle, grafik analizi gibi seyrek ve “dalga” davranış sergileyen görevler için. Aynı zamanda, veri merkezleri giderek güç kısıtlamasına maruz kalıyor; bu da yeteneklerinin büyümesini sınırlıyor. Bu durum, tüm hızlandırılabilir iş yüklerinin hızlandırılmış şekilde çalıştırılmasının gerekli olduğunu gösteriyor; hızlandırılmadıkları takdirde ise en verimli CPU hesaplamalarını kullanmaları önem kazanıyor.
NVIDIA Grace CPU Tasarımı
NVIDIA Grace CPU, 72 yüksek performanslı ve enerji verimli Arm Neoverse V2 çekirdekleri ile güçlü bağlantılar kuran NVIDIA Scalable Coherency Fabric (SCF) mimarisini bir araya getiriyor. Bu yapı, geleneksel CPU’ların iki katı olan 3.2 TB/s kesişme bant genişliği sunarak CPU çekirdekleri, ön bellek, bellek ve sistem girişi/çıkışı arasında veri akışının sürekli olmasını sağlıyor. Grace, aynı maliyetle geleneksel DDR belleklerin beşte biri güçle 500 GB/s bant genişliğine sahip sunucularda sunulan ilk veri merkezi CPU’sudur.
NVIDIA Grace CPU, birçok NVIDIA ürününü güçlendiriyor. NVIDIA Hopper veya Blackwell GPU’ları ile bir araya gelerek, CPU ve GPU’yu sıkı bir şekilde birleştirip generatif AI, yüksek performanslı hesaplama (HPC) ve hızlandırılmış hesaplamaları süper şarj ediyor. Ayrıca, NVIDIA Grace CPU Superchip ve Grace CPU C1 da dahil olmak üzere iki soketli sunucuların kalbini oluşturuyor.
Hopper ve Grace CPU Süper Çipi
NVIDIA GH200 Grace Hopper Superchip, NVIDIA Hopper GPU’nun çığır açan performansını NVIDIA Grace CPU’nun çok yönlülüğü ile birleştiren bir süper çip sunuyor. 900 GB/s bant genişliğine sahip yüksek bant genişlikli, bellek uyumlu NVIDIA NVLink Chip-2-Chip (C2C) bağlantısı, PCIe Gen 5’in 7 katı bant genişliği sağlıyor. NVLink-C2C bellek tutarlılığı, geliştirici üretkenliğini, performansı ve GPU’ya erişebilen bellek miktarını artırıyor. CPU ve GPU iş parçacıkları, her iki bellek alanına da eşzamanlı ve şeffaf bir şekilde erişebiliyor, bu da algoritmalara odaklanmanızı sağlıyor.
CAE ve Otomotiv Sektöründeki Rolü
Son yirmi yılda, bilgisayar destekli mühendislik (CAE), ürün geliştirilmesinde devrim yarattı. Bir tasarımın fiziksel performansını sanal olarak değerlendirme yeteneği, fiziksel bir prototip oluşturmadan zaman ve para tasarrufu sağladı. CAE’nin benimsenmesi, otomotiv endüstrisi gibi birçok sektörde rekabet avantajı sağladı. Bu değişim, endüstri trendlerine hızlı adapte olabilmelerini sağladı.
Hesaplamalı akışkanlar dinamikleri (CFD) ve kaza simülasyonları, maksimum bant genişliği, ultra düşük gecikme süresi ve yerel CPU boşaltmaları gibi yüksek ağ performansına dayalı simülasyonlardır; bu da multinodal ölçeklenebilirlik için optimal sunucu verimliliği ve uygulama üretkenliği sağlar. NVIDIA Quantum InfiniBand, hızlı veri hızları, minimum gecikme, zeki hızlandırmalar ve üstün verimlilik sunarak olağanüstü ölçeklenebilirlik ve performans sağlıyor.
Ansys, CAE araçlarının önde gelen sağlayıcısıdır. Bu yazıda, çarpışma analizi için yaygın olarak kullanılan Ansys LS-DYNA ve aerodinamik analiz için yaygın olarak kullanılan Ansys Fluent yazılımının performansı inceleniyor. Ansys LS-DYNA simülasyonu esasen bir CPU iş yüküdür ve bu nedenle NVIDIA Grace CPU’da test edilecektir. Ansys Fluent yazılımı ise yerel bir CUDA çözümleyicisinden yararlanır ve bu nedenle NVIDIA Grace Hopper üzerinde çalışacaktır. Bu yükler, otomotiv endüstrisi için kritik öneme sahiptir.
Otomotiv Çarpışma Analizinde CAE’nin Önemi
Bir aracın, güvenlik standartlarını yerine getirmesi ve fazla ağırlık taşımaması, güvenli ve enerji verimli bir araç üretimini sağlamak açısından önemlidir. Çarpışma analizi için endüstri standardı araç Ansys LS-DYNA yazılımıdır. Gerekli olan explicit nonlinear solver nedeniyle bu iş yükü CPU’da çalışmaktadır. Bir OEM üzerinde çarpışma analizi gerçekleştiren binlerce CPU çekirdeği bulunduğundan, NVIDIA Grace CPU benimsenmesi ile enerji ve maliyet tasarrufu potansiyeli oldukça yüksektir.
Herhangi bir yeni donanım platformunun benimsenmesinin ana unsurlarından biri yazılım ekosisteminin bulunmasıdır. Grace, Arm mimarisine dayandığı için, destekleyecek zengin ve büyüyen bir ekosistemi vardır. Bu, Ansys’in sağladığı birçok aracı, özellikle LS-DYNA yazılımını kapsamaktadır.
NVIDIA Grace CPU Üzerinde Ansys LS-DYNA Performansı
Şekil 4, NVIDIA Grace CPU’nun mevcut x86 seçeneklerle karşılaştırıldığında, car2car_20m ve odm_10m modelleri için gösterdiği performansı göstermektedir. Gösterilen performans ölçümü, belirli bir durumda geçen toplam CPU süresine dayanarak yapılmıştır.
Şekil 5, enerji verimliliği açısından NVIDIA Grace Süper Çipinin avantajını göstermektedir. Grace, hem car2car_20m hem de odm_10m vakalarını, çok daha az güçle çalıştırabilir, bu da maliyetlerin azalmasını ve daha sürdürülebilir bir hesaplama imkanı sağlar. Birçok veri merkezi güç sınırlı olduğundan, güç tüketiminin azaltılması, aynı enerji bütçesi içinde daha fazla hesaplama yapılmasını sağlar.
LS-DYNA simülasyonları genellikle birden fazla düğüm üzerinden çalıştırılır; bu, çalışma süresinin azaltılması ve mühendislik analiz bilgilerinin daha hızlı elde edilmesine yardımcı olur. Bu nedenle, Grace CPU ve Intel Sapphire Rapids karşılaştırmasında 1-8 düğüm ölçeklenebilirliği değerlendirildi.
NVIDIA Grace Süper Çipi 480 GB LPDDR5X, AMD EPYC 9654 768 GB DDR5 ve Intel Xeon Platinum 8480+ 1TB DDR5 ile karşılaştırılmıştır. OS: CentOS 7.9 (Grace), Ubuntu 22..04 (x86). Derleyiciler: LLVM 12.0.1 (Grace), Intel FORTRAN Compiler 19.0 (x86). LS-DYNA R14.1 ile test edilmiştir.
Enerji Verimliliği Penceresi
NVIDIA Grace CPU, Ansys LS-DYNA yazılımı ile otomotiv çarpışma analizleri için enerji verimliliğinde önemli bir adım atmaktadır. Grace gibi Arm tabanlı mimariler, performans ve verimlilik açısından etkileyici bir denge sunmaktadır. Hizmet sunduğu HPC’de, yüksek enerji maliyetleri açısından bu eğilim giderek daha önemli hale gelmektedir. x86 alternatiflere göre %200’ün üzerinde bir performans/watt iyileştirmesi sunan bu sonuçlar, Arm’ın HPC için geçerli bir seçenek olarak öne çıkmasını sağlamaktadır. Güç sınırlı bir veri merkezinde, aynı enerji bütçesi içinde iki kat daha fazla performans elde edilebilir ve bu da simülasyon yeteneklerini artırmaktadır. Müşteriler, aynı düzeyde performansı korurken, hızlandırma için ek kaynaklar ayırabilirler. Önümüzdeki NVIDIA Vera CPU ile birlikte Arm’ın HPC’deki rolü daha da genişleyecek ve hem ham performans hem de verimlilik artışı sağlayacaktır.
Son Teknoloji Hesaplama ile Ansys Fluent Simülasyonu
Etkili bir araç tasarımı, aerodinamik performansın anlaşılmasını gerektirir. Bir aracın sürüklenme direnci, menzilini doğrudan etkiler. Bu nedenle, aracın şeklini optimize etmek için birçok simülasyonun yapılması gerekmektedir. Hesaplamalı akışkanlar dinamikleri (CFD) araçları olan Ansys Fluent yazılımlarının hızlı ve verimli bir şekilde çalıştırılması, kritik öneme sahiptir.
Ansys, Grace Hopper üzerinde simülasyona gerçekleştirme testini Texas İleri Hesaplama Merkezi (TACC) Vista süper bilgisayarında gerçekleştirmiştir. 320 NVIDIA GH200 Grace Hopper süper çipi, NVIDIA Quantum-2 400Gb/s InfiniBand ağıyla birbirine bağlıydı, bu da ölçeklenebilir performans sağladı. Büyük, 2.4 milyar hücre otomotiv simülasyonu, 2.048 x86 CPU çekirdeğinde neredeyse bir ay sürecekken, Grace Hopper üzerinde yalnızca 6 saatten fazla sürmüştür.
Hızın yanı sıra, enerji ve maliyet verimliliği de önemli bir konudur. Grace Hopper üzerinde Ansys Fluent simülasyonları, bu metrikler açısından da öne çıkmaktadır.
Şekil 10, 1.000 iterasyon başına yapılan DrivAer simülasyonlarının, 2.048 çekirdekli x86 CPU ile karşılaştırıldığında kilovat-saat başına sayısını göstermektedir. Grace Hopper sistemi daha fazla güç kullanmasına rağmen, simülasyonu çok daha hızlı tamamladığı için CPU’lardan altı kat fazla enerji tasarrufu sağlamaktadır. Bunu bağlamlaştırmak gerekirse, ortalama bir ABD hanehalkı günde 30 kWh tüketmektedir. Bu enerji miktarı ile Grace Hopper, bu ölçekli bir simülasyonu dokuz kez çalıştırırken, CPU sistemi yalnızca 1.5 kez çalıştırmaktadır.
Maliyet-performans boyutunda benzer bir analiz gerçekleştirilerek, CPU sunucusunun ve Grace Hopper sunucusunun standart fiyatlandırması kullanılmıştır. Bir süper bilgisayarın faydalı ömrü 3 yıl olarak hesaplanmıştır ve bu süreçte büyük Ansys Fluent simülasyonları için Grace Hopper kullanmanın 4 kat avantaj sağladığı gözlemlenmiştir.
Simülasyonları gerçekleştirmenin maliyetini karşılaştırmak için, 3 yıl içinde 2.048 çekirdek veya 32 GPU ile 1.000 iterasyonluk DrivAer 2.4B simülasyonlarının kaç kez yapılabileceği hesaplanmıştır.
TACC Vista GH200 bölümü: 96 GB HBM3 / 120 GB LPDDR, NVIDIA Quantum-2 MQM9790 400Gb/s InfiniBand anahtarı.
NVIDIA Grace Hopper ve NVIDIA Grace CPU Deneyimleri
Performansınızı test etmek için NVIDIA Grace Süper Çipi veya NVIDIA Grace Hopper üzerinde test edebilirsiniz. İş yükünüzü HPC-AI Danışma Konseyi tarafından barındırılan NVIDIA Quantum-2 InfiniBand bağlantılı çok düğümlü ortam olan Thea’da test etmek için sistem erişimi için başvuru yapın.