“NVIDIA Grace CPU ile Polars ve Apache Spark Kullanarak Etkili ETL Süreçleri”

NVIDIA Grace CPU Superchip, veri merkezlerinde ve bulut ortamlarında CPU iş yükleri için olağanüstü performans ve sınıfının en iyisi enerji verimliliği sunar. NVIDIA Grace’in sağladığı avantajlar arasında yüksek performanslı Arm Neoverse V2 çekirdekleri, hızlı NVIDIA tasarımı Scalable Coherency Fabric ve düşük güç tüketimine sahip yüksek bant genişliğine sahip LPDDR5X bellek bulunur.

Bu özellikler, Grace CPU’yu Extract, Load, Transform (ETL) iş yükleri için mükemmel bir seçenek haline getirir ve dünya genelinde benzeri görülmemiş bir performans sergiler. ETL iş yükleri, çevrimiçi analitik işlem (OLAP) ve iş zekası (BI) iş akışlarının kritik bir bileşenini oluşturur; bu sayede işletmeler, veri içgörülerini elde edebilir ve organizasyonel karar verme süreçlerini geliştirebilir.

Bu yazıda, NVIDIA Grace CPU’nun ETL iş yüklerini tek düğümlü Polars ve çoklu düğümlü Apache Spark üzerinde çalıştırma sırasında güç tüketimini nasıl düşürdüğünü açıklayacağız; bunu yaparken performansından ödün vermeyecek.

Tek Düğümde Polars Üzerinde CPU Performansı

Polars, veri işleme için açık kaynaklı bir kütüphanedir ve Python API’si aracılığıyla tek düğümlü iş yükleri için yüksek performans sunar. Polars, pola-rs/polars-benchmark adlı GitHub deposu üzerinden çeşitli analiz sorgularının uygulandığı bir PDS benchmark yayınlar.

PDS kullanılarak elde edilen sonuçlar, yayımlanmış TPC-H Benchmark sonuçlarıyla kıyaslanamaz. PDS benchmark, Polars LazyFrame işlemleri kullanılarak uygulanan 22 sorgu içerir; bu sayede Polars optimizasyonu predikasyon, projeksiyon itme ve diğer optimize etme tekniklerini uygulayabilir. Testler, Polars sürümü 1.22.0 kullanılarak ve POLARS_FORCE_NEW_STREAMING=1 ortam değişkeni etkinleştirilerek gerçekleştirilmiştir.

Sorgu süreleri, 100 ölçek faktörü (SF100 = 100 GB) ile sıcak önbellek parquet veri kaynağında toplanmıştır. Intel Sapphire Rapids sistemi, 112 mantıksal çekirdek ve 2 TB DDR5 sistem belleği ile Xeon Platinum 8480CL CPU kullanırken, AMD Turin sistemi 256 mantıksal çekirdek ve 1.5 TB DDR5 sistem belleği ile EPYC 9755 CPU kullanmaktadır. Hem Intel Sapphire Rapids hem de AMD Turin için, en iyi çalışma zamanı tek bir soketin fiziksel çekirdeklerine sınırlı tutulduğunda gözlemlenmiştir.

Son olarak, NVIDIA Grace CPU sistemi, 72 fiziksel çekirdek ve 120 GB LPDDR5X sistem belleği ile bir NVIDIA Grace CPU Superchip içermektedir. Tüm benchmark testleri tek bir sokette gerçekleştirilmiştir. x86 CPU benchmarkları, _RJEM_MALLOC_CONF=thp:always ortam değişkeni etkinleştirilerek çalıştırılmıştır.

Bar chart showing the sum of query runtime for Intel Sapphire Rapids, AMD Turin, and NVIDIA Grace CPU.
Şekil 1. PDS SF100’deki 22 sorgu için CPU modeli bazında sorgu süresi

PDS SF100 benchmarkı için, NVIDIA Grace CPU’nun AMD Turin 1S’e göre %25 hız artışı sağladığı gözlemlenmiştir ve bu hızlanmanın kaynağı, çekirdek sayısı, saat hızı, önbellek bant genişliği veya bellek bant genişliği ile ilgili değildir.

Bunun yerine, Grace’in varsayılan 64K sayfa boyutunun, x86 ve x86 üzerindeki 2 MB THP ile karşılaştırıldığında belirli avantajlar sunduğunu gözlemliyoruz. AMD Turin için, varsayılan ayarlarla 86 saniye çalışma süresi gözlemlenmiş, bir soketle sınırlama yapılınca süre 60 saniyeye düşmüştür. THP etkinleştirilip hipeziteleme devre dışı bırakıldığında ise çalışma süresi 41 saniyeye inmiştir (Şekil 1).

PDS’de veri işleme iş yükü için NVIDIA Grace CPU’nun kutu içi yapılandırması en iyi performansı sergilemiştir. NVIDIA Grace ile ilgili daha fazla bilgi için Grace Performans Ayar Rehberi‘ne başvurabilirsiniz.

Şekil 2. PDS SF100 için CPU modeli ile sunucular arasında watt-saat cinsinden enerji kullanımı

Polars PDS SF100 için, NVIDIA Grace CPU kullanan sunucuların enerji kullanımı, x86 CPU’lara sahip eşdeğer sunuculara göre %65 daha az tahmin edilmiştir. Enerji tüketimi analizi, iki PDS SF100 iş yükü çalıştıran 2S sunuculara dayanarak yapılmıştır; NVIDIA Grace CPU Superchip için 555 W, AMD Turin için 1,120 W ve Intel Sapphire Rapids için 1,050 W değerleri kullanılmıştır.

NVIDIA Grace, %2.7 daha iyi enerji başına performans ve %1.6 daha iyi dolar başına performans ile rekabette muazzam bir değer sunmaktadır.

Şekil 3. PDS SF100 sorgularında CPU modeli için dolar başına performans ve watt başına performans

Çoklu Düğümde Apache Spark ile CPU Performansı

Apache Spark, çoklu düğüm kümelerinde veri mühendisliği, veri bilimi ve makine öğrenimi iş yüklerini işlemek için popüler ve güvenilir bir motor olarak öne çıkar. NVIDIA, NVIDIA/spark-rapids-benchmarks GitHub deposunda, TPC-DS’den türetilen karar destek sorgularını çalıştırmak için betikler de içeren bir NDS benchmark araç setini açık kaynak halinde sunmuştur.

NDS, hem Spark kullanımında CPU yürütmesi hem de Apache Spark için RAPIDS Hızlandırıcısı ile GPU yürütmesi desteği sunar. NDS kullanarak elde edilen sonuçlar, yayımlanmış TPC-DS Benchmark sonuçlarıyla kıyaslanamaz, çünkü NDS ile elde edilen sonuçlar TPC-DS Benchmarklara uygun değildir.

Testler, 3,000 ölçek faktöründe (SF3K = 3 TB) ve HDFS (Hadoop Dağıtık Dosya Sistemi) veri kaynağı ile toplamda 99 sorgu gerçekleştirilmiştir.

NDS SF3K iş yükü için iki küme kullanılmıştır. İlk kümeyle, her birinde bir AMD Genoa EPYC 9354 CPU ve 528 GB sistem belleği bulunan sekiz düğüm kullanılmıştır. İkinci kümeyse, her birinde bir NVIDIA Grace CPU Superchip ve 240 GB LPDDR5 sistem belleği bulunan sekiz düğümden oluşmaktadır.

Şekil 4. NDS SF3K’deki 99 sorgu için CPU modeli bazında enerji kullanımı

NDS SF3K benchmarkı için, her iki sekiz düğümlü küme arasında benzer çalışma süresi performansı gözlemi yapılmış; NVIDIA Grace CPU kümesi, AMD Genoa kümesi ile hemen hemen aynı seviyeye ulaşmıştır.

Ancak, tahmin edilen enerji tüketimi değerleri 555 W Grace düğümü ve 795 W Genoa düğümü için dikkate alındığında, NVIDIA Grace CPU kümesi, AMD Genoa kümesine göre aynı güçte neredeyse %40 daha fazla performans sunmaktadır.

Sonuç

ETL iş yükleri, günümüzdeki organizasyonların verilerinde önemli içgörüler elde etmesi için kritik bir rol oynar. Performans özellikleri, büyük miktarlarda veri hareketi, sık iletişim ve sınırlı vektörizasyon fırsatlarını vurgular. Grace mimarisi, yüksek performanslı çekirdekler, hızlı veri akışı ve yüksek bellek bant genişliği ile birlikte yüksek enerji verimliliği sunarak ETL iş yüklerinin optimize edilmiştir.

NVIDIA Grace CPU, veri merkezlerinde ETL iş yükleri için %2.7 daha iyi performans ve %1.6 daha iyi maliyet avantajı sunarak toplam sahibi maliyetini düşürür.

NVIDIA Grace’i ETL iş yükleri için kullanmak, lider performans sağlarken güç tüketimini azaltmakta ve müşterilerin bu güç tasarrufunu yapay zeka yetenekleri için kullanmalarını sağlamaktadır.

NVIDIA Grace’a geçmek, NVIDIA GB200 Grace Blackwell Superchip gibi ürünlerle CPU ve GPU mimarilerinin sıkı bir şekilde bir araya gelmesine de olanak tanır. Grace ile, veri merkezleri, tüm Arm ekosistemi genelinde çalışabilen tek bir CPU mimarisine standart hale gelebilir.

NVIDIA Grace CPU hakkında daha fazla bilgi edinmek ve yazılım ile sistem kurulumu hakkında detaylar öğrenmek için lütfen bu linki ziyaret edin.

Kaynak

Nvdia Blog

Exit mobile version