SON DAKİKA

Nvdia

“NVIDIA Grace ve NVIDIA Grace Hopper ile Ansys Yüksek Performansını Artırma”

Hızlandırılmış hesaplama, geleneksel CPU hesaplamalara kıyasla performans ve enerji verimliliğinde büyük sıçramalar sağlıyor. Bu yeniliklerin sunulması, veri merkezi ölçeğinde çipler, sistemler, ağlar, yazılımlar ve algoritmalar dahil olmak üzere tam yığın inovasyon gerektiriyor. En uygun enerji verimliliği ile doğru iş yükü için doğru mimarinin seçilmesi, veri merkezinizin performansını maksimize etmek ve karbon ayak izini minimize etmek açısından kritik öneme sahip.

İş yükleri giderek GPU’lar tarafından hızlandırılsa da, birçok kullanım durumu hala geleneksel CPU’lar üzerinde çalışmaya devam ediyor. Özellikle, grafik analizi gibi seyrek ve “dalga” davranış sergileyen görevler için. Aynı zamanda, veri merkezleri giderek güç kısıtlamasına maruz kalıyor; bu da yeteneklerinin büyümesini sınırlıyor. Bu durum, tüm hızlandırılabilir iş yüklerinin hızlandırılmış şekilde çalıştırılmasının gerekli olduğunu gösteriyor; hızlandırılmadıkları takdirde ise en verimli CPU hesaplamalarını kullanmaları önem kazanıyor.

NVIDIA Grace CPU Tasarımı

NVIDIA Grace CPU, 72 yüksek performanslı ve enerji verimli Arm Neoverse V2 çekirdekleri ile güçlü bağlantılar kuran NVIDIA Scalable Coherency Fabric (SCF) mimarisini bir araya getiriyor. Bu yapı, geleneksel CPU’ların iki katı olan 3.2 TB/s kesişme bant genişliği sunarak CPU çekirdekleri, ön bellek, bellek ve sistem girişi/çıkışı arasında veri akışının sürekli olmasını sağlıyor. Grace, aynı maliyetle geleneksel DDR belleklerin beşte biri güçle 500 GB/s bant genişliğine sahip sunucularda sunulan ilk veri merkezi CPU’sudur.

Side-by-side images of NVIDIA Grace Superchip (left) and Grace Hopper Superchip (right).
Şekil 1: NVIDIA Grace Superchip (sol) ve Grace Hopper Superchip (sağ)

NVIDIA Grace CPU, birçok NVIDIA ürününü güçlendiriyor. NVIDIA Hopper veya Blackwell GPU’ları ile bir araya gelerek, CPU ve GPU’yu sıkı bir şekilde birleştirip generatif AI, yüksek performanslı hesaplama (HPC) ve hızlandırılmış hesaplamaları süper şarj ediyor. Ayrıca, NVIDIA Grace CPU Superchip ve Grace CPU C1 da dahil olmak üzere iki soketli sunucuların kalbini oluşturuyor.

Hopper ve Grace CPU Süper Çipi

NVIDIA GH200 Grace Hopper Superchip, NVIDIA Hopper GPU’nun çığır açan performansını NVIDIA Grace CPU’nun çok yönlülüğü ile birleştiren bir süper çip sunuyor. 900 GB/s bant genişliğine sahip yüksek bant genişlikli, bellek uyumlu NVIDIA NVLink Chip-2-Chip (C2C) bağlantısı, PCIe Gen 5’in 7 katı bant genişliği sağlıyor. NVLink-C2C bellek tutarlılığı, geliştirici üretkenliğini, performansı ve GPU’ya erişebilen bellek miktarını artırıyor. CPU ve GPU iş parçacıkları, her iki bellek alanına da eşzamanlı ve şeffaf bir şekilde erişebiliyor, bu da algoritmalara odaklanmanızı sağlıyor.

CAE ve Otomotiv Sektöründeki Rolü

Son yirmi yılda, bilgisayar destekli mühendislik (CAE), ürün geliştirilmesinde devrim yarattı. Bir tasarımın fiziksel performansını sanal olarak değerlendirme yeteneği, fiziksel bir prototip oluşturmadan zaman ve para tasarrufu sağladı. CAE’nin benimsenmesi, otomotiv endüstrisi gibi birçok sektörde rekabet avantajı sağladı. Bu değişim, endüstri trendlerine hızlı adapte olabilmelerini sağladı.

Hesaplamalı akışkanlar dinamikleri (CFD) ve kaza simülasyonları, maksimum bant genişliği, ultra düşük gecikme süresi ve yerel CPU boşaltmaları gibi yüksek ağ performansına dayalı simülasyonlardır; bu da multinodal ölçeklenebilirlik için optimal sunucu verimliliği ve uygulama üretkenliği sağlar. NVIDIA Quantum InfiniBand, hızlı veri hızları, minimum gecikme, zeki hızlandırmalar ve üstün verimlilik sunarak olağanüstü ölçeklenebilirlik ve performans sağlıyor.

Ansys, CAE araçlarının önde gelen sağlayıcısıdır. Bu yazıda, çarpışma analizi için yaygın olarak kullanılan Ansys LS-DYNA ve aerodinamik analiz için yaygın olarak kullanılan Ansys Fluent yazılımının performansı inceleniyor. Ansys LS-DYNA simülasyonu esasen bir CPU iş yüküdür ve bu nedenle NVIDIA Grace CPU’da test edilecektir. Ansys Fluent yazılımı ise yerel bir CUDA çözümleyicisinden yararlanır ve bu nedenle NVIDIA Grace Hopper üzerinde çalışacaktır. Bu yükler, otomotiv endüstrisi için kritik öneme sahiptir.

Otomotiv Çarpışma Analizinde CAE’nin Önemi

Bir aracın, güvenlik standartlarını yerine getirmesi ve fazla ağırlık taşımaması, güvenli ve enerji verimli bir araç üretimini sağlamak açısından önemlidir. Çarpışma analizi için endüstri standardı araç Ansys LS-DYNA yazılımıdır. Gerekli olan explicit nonlinear solver nedeniyle bu iş yükü CPU’da çalışmaktadır. Bir OEM üzerinde çarpışma analizi gerçekleştiren binlerce CPU çekirdeği bulunduğundan, NVIDIA Grace CPU benimsenmesi ile enerji ve maliyet tasarrufu potansiyeli oldukça yüksektir.

Image showing a vehicle crash simulation model for Ansys LS-DYNA software.
Şekil 2: Ansys LS-DYNA için çarpışma simülasyon modelleri
Graphic of two multicolored cars in a head-on collision.
Şekil 3: Ansys LS-DYNA için araca çarpma simülasyon modelleri

Herhangi bir yeni donanım platformunun benimsenmesinin ana unsurlarından biri yazılım ekosisteminin bulunmasıdır. Grace, Arm mimarisine dayandığı için, destekleyecek zengin ve büyüyen bir ekosistemi vardır. Bu, Ansys’in sağladığı birçok aracı, özellikle LS-DYNA yazılımını kapsamaktadır.

NVIDIA Grace CPU Üzerinde Ansys LS-DYNA Performansı

Şekil 4, NVIDIA Grace CPU’nun mevcut x86 seçeneklerle karşılaştırıldığında, car2car_20m ve odm_10m modelleri için gösterdiği performansı göstermektedir. Gösterilen performans ölçümü, belirli bir durumda geçen toplam CPU süresine dayanarak yapılmıştır.

Chart comparing the CPU time for a range of CPU architectures for both the car2car_20m and odm_10m cases.
Şekil 4: NVIDIA Grace CPU’nun birçok standart x86 seçeneği ile karşılaştırılması

Şekil 5, enerji verimliliği açısından NVIDIA Grace Süper Çipinin avantajını göstermektedir. Grace, hem car2car_20m hem de odm_10m vakalarını, çok daha az güçle çalıştırabilir, bu da maliyetlerin azalmasını ve daha sürdürülebilir bir hesaplama imkanı sağlar. Birçok veri merkezi güç sınırlı olduğundan, güç tüketiminin azaltılması, aynı enerji bütçesi içinde daha fazla hesaplama yapılmasını sağlar.

Chart comparing the average energy for a range of CPU architectures for both the car2car_20m and odm_10m cases
Şekil 5: NVIDIA Grace CPU’nun x86 mimarilerine göre üstün enerji verimliliği sağladığını gösteren grafik

LS-DYNA simülasyonları genellikle birden fazla düğüm üzerinden çalıştırılır; bu, çalışma süresinin azaltılması ve mühendislik analiz bilgilerinin daha hızlı elde edilmesine yardımcı olur. Bu nedenle, Grace CPU ve Intel Sapphire Rapids karşılaştırmasında 1-8 düğüm ölçeklenebilirliği değerlendirildi.

A line chart showing the NVIDIA Grace CPU Superchip and Intel Xeon Platinum 8480+ compared for 1-8 nodes. Grace CPU ranges from 25% better at 1 node to 33% better at 8 nodes.
Şekil 6: ODM_10m modeli için 1-8 düğüm ölçeklenebilirliği; NVIDIA Grace CPU Süper Çipi ve Intel Xeon Platinum 8480+
A line chart showing the NVIDIA Grace CPU Superchip and Intel Xeon Platinum 8480+ CPU compared for 1-8 nodes. Grace CPU ranges from 20% better at 1 node to 40% better at 8 nodes.
Şekil 7: Car2car_20m modeli için 1-8 düğüm ölçeklenebilirliği; NVIDIA Grace CPU Süper Çipi ve Intel Xeon Platinum 8480+

NVIDIA Grace Süper Çipi 480 GB LPDDR5X, AMD EPYC 9654 768 GB DDR5 ve Intel Xeon Platinum 8480+ 1TB DDR5 ile karşılaştırılmıştır. OS: CentOS 7.9 (Grace), Ubuntu 22..04 (x86). Derleyiciler: LLVM 12.0.1 (Grace), Intel FORTRAN Compiler 19.0 (x86). LS-DYNA R14.1 ile test edilmiştir.

Enerji Verimliliği Penceresi

NVIDIA Grace CPU, Ansys LS-DYNA yazılımı ile otomotiv çarpışma analizleri için enerji verimliliğinde önemli bir adım atmaktadır. Grace gibi Arm tabanlı mimariler, performans ve verimlilik açısından etkileyici bir denge sunmaktadır. Hizmet sunduğu HPC’de, yüksek enerji maliyetleri açısından bu eğilim giderek daha önemli hale gelmektedir. x86 alternatiflere göre %200’ün üzerinde bir performans/watt iyileştirmesi sunan bu sonuçlar, Arm’ın HPC için geçerli bir seçenek olarak öne çıkmasını sağlamaktadır. Güç sınırlı bir veri merkezinde, aynı enerji bütçesi içinde iki kat daha fazla performans elde edilebilir ve bu da simülasyon yeteneklerini artırmaktadır. Müşteriler, aynı düzeyde performansı korurken, hızlandırma için ek kaynaklar ayırabilirler. Önümüzdeki NVIDIA Vera CPU ile birlikte Arm’ın HPC’deki rolü daha da genişleyecek ve hem ham performans hem de verimlilik artışı sağlayacaktır.

Son Teknoloji Hesaplama ile Ansys Fluent Simülasyonu

Etkili bir araç tasarımı, aerodinamik performansın anlaşılmasını gerektirir. Bir aracın sürüklenme direnci, menzilini doğrudan etkiler. Bu nedenle, aracın şeklini optimize etmek için birçok simülasyonun yapılması gerekmektedir. Hesaplamalı akışkanlar dinamikleri (CFD) araçları olan Ansys Fluent yazılımlarının hızlı ve verimli bir şekilde çalıştırılması, kritik öneme sahiptir.

Image of an Ansys Fluent 2024 R2 simulation of a 2.5-billion Cell DrivAer dataset showing small-scale flow features.
Şekil 8: Ansys Fluent 2024 R2 simülasyonu, 2.5 milyar hücreli DrivAer veri setini göstermektedir

Ansys, Grace Hopper üzerinde simülasyona gerçekleştirme testini Texas İleri Hesaplama Merkezi (TACC) Vista süper bilgisayarında gerçekleştirmiştir. 320 NVIDIA GH200 Grace Hopper süper çipi, NVIDIA Quantum-2 400Gb/s InfiniBand ağıyla birbirine bağlıydı, bu da ölçeklenebilir performans sağladı. Büyük, 2.4 milyar hücre otomotiv simülasyonu, 2.048 x86 CPU çekirdeğinde neredeyse bir ay sürecekken, Grace Hopper üzerinde yalnızca 6 saatten fazla sürmüştür.

A line chart showing the speedup of Ansys Fluent simulation software from 32 to 320 GPUs scaling from just over 20X at 32 GPUs to 110X at 320 GPUs
Şekil 9: Ansys Fluent simülasyon yazılımı, Grace Hopper’da 320 GPU ile çalıştırılıyor

Hızın yanı sıra, enerji ve maliyet verimliliği de önemli bir konudur. Grace Hopper üzerinde Ansys Fluent simülasyonları, bu metrikler açısından da öne çıkmaktadır.

Şekil 10, 1.000 iterasyon başına yapılan DrivAer simülasyonlarının, 2.048 çekirdekli x86 CPU ile karşılaştırıldığında kilovat-saat başına sayısını göstermektedir. Grace Hopper sistemi daha fazla güç kullanmasına rağmen, simülasyonu çok daha hızlı tamamladığı için CPU’lardan altı kat fazla enerji tasarrufu sağlamaktadır. Bunu bağlamlaştırmak gerekirse, ortalama bir ABD hanehalkı günde 30 kWh tüketmektedir. Bu enerji miktarı ile Grace Hopper, bu ölçekli bir simülasyonu dokuz kez çalıştırırken, CPU sistemi yalnızca 1.5 kez çalıştırmaktadır.

A bar chart comparing the number of simulations which can be run per kilowatt-hour on 2,048 CPUs (0.05) and on Grace Hopper (0.32).
Şekil 10: Grafik, kilovat-saat başına gerçekleştirilebilen DrivAer simülasyonlarını karşılaştırıyor

Maliyet-performans boyutunda benzer bir analiz gerçekleştirilerek, CPU sunucusunun ve Grace Hopper sunucusunun standart fiyatlandırması kullanılmıştır. Bir süper bilgisayarın faydalı ömrü 3 yıl olarak hesaplanmıştır ve bu süreçte büyük Ansys Fluent simülasyonları için Grace Hopper kullanmanın 4 kat avantaj sağladığı gözlemlenmiştir.

Simülasyonları gerçekleştirmenin maliyetini karşılaştırmak için, 3 yıl içinde 2.048 çekirdek veya 32 GPU ile 1.000 iterasyonluk DrivAer 2.4B simülasyonlarının kaç kez yapılabileceği hesaplanmıştır.

A bar chart comparing the number of simulations which can be run per dollar on 2048 CPUs (0.021) and on Grace Hopper (0.083).
Şekil 11: Grafik, kilovat-saat başına gerçekleştirilebilen simülasyonları karşılaştırıyor

TACC Vista GH200 bölümü: 96 GB HBM3 / 120 GB LPDDR, NVIDIA Quantum-2 MQM9790 400Gb/s InfiniBand anahtarı.

NVIDIA Grace Hopper ve NVIDIA Grace CPU Deneyimleri

Performansınızı test etmek için NVIDIA Grace Süper Çipi veya NVIDIA Grace Hopper üzerinde test edebilirsiniz. İş yükünüzü HPC-AI Danışma Konseyi tarafından barındırılan NVIDIA Quantum-2 InfiniBand bağlantılı çok düğümlü ortam olan Thea’da test etmek için sistem erişimi için başvuru yapın.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri