NVIDIA, RAPIDS 25.08 sürümünü tanıttı ve bu sürümle birlikte hızlandırılmış veri bilimi deneyimini daha erişilebilir ve ölçeklenebilir hale getirmek için birçok yeni özellik ekledi.
Yeni Profiling Araçları ile Performans Analizi
Bu sürüm, cuml.accel kodunu daha verimli hale getirmek için iki yeni profil aracı ekliyor. Daha önce cudf.pandas için sunulan profiler ile benzerlik gösteren bu araçlar, kullanıcıların cuML ile GPU’da hızlandırılan işlemleri ve CPU’ya düşen işlemleri anlamalarına yardımcı oluyor. Bu, makine öğrenmesi süreçlerinde performans darboğazlarını tespit etmek için oldukça faydalı.
İlk olarak, bir fonksiyon seviyesi profiler sunuldu. Bu profiler, kullanıcıların bir betikteki veya hücredeki tüm GPU ve CPU işlemlerini görmelerini sağlıyor. Ayrıca, her bir işlevin ne kadar süre aldığını gösteriyor.
Profiler’ı Jupyter veya IPython not defterinde kullanmak için %%cuml.accel.profile
komutunu betiğin ardından yazabilirsiniz.
Örnek:
%%cuml.accel.profile
from sklearn.linear_model import Ridge
from sklearn.datasets import make_regression
X, y = make_regression(n_samples=100)
ridge = Ridge(alpha=1.0)
ridge.fit(X, y)
ridge.predict(X)
ridge = Ridge(positive=True)
ridge.fit(X, y)
ridge.predict(X)
Fonksiyon seviyesi profiler, kullanıcıya bir hücrede gerçekleştirilen işlemleri ve bu işlemlerin GPU veya CPU üzerindeki sürelerini gösterir.
Büyük ve Karmaşık Verilerle Çalışmanın Yeni Yolları
RAPIDS 25.08 sürümü ile Polars GPU motoru, daha büyük ve daha karmaşık verilerle çalışmayı kolaylaştırıyor. Yeni varsayılan akış yürütücü ile GPU belleğinden daha büyük veri kümesi işlemlerini destekliyoruz. Bu yeni yürütücü, veri partitioning ile verilerinizi daha verimli bir şekilde işleyebilmenizi sağlar.
Akış yürütme modu, küçük veri kümelerinde yalnızca hafif bir performans kaybı ile çalışırken, veri kümesi büyüdüğünde çok sayıda hızlandırma sunar.
Polars GPU motoru, artık struct verileri ile işlem yapabiliyor. Önceden, struct içeren işlemler CPU’ya geçiş yapmaktaydı, ancak bu sürümle birlikte bu işlemler GPU’da hızlandırıldı.
>>> import polars as pl
>>> ratings = pl.LazyFrame({
... "Movie": ["Cars", "IT", "ET", "Cars", "Up", "IT", "Cars", "ET", "Up", "ET"],
... "Theatre": ["NE", "ME", "IL", "ND", "NE", "SD", "NE", "IL", "IL", "SD"],
... "Avg_Rating": [4.5, 4.4, 4.6, 4.3, 4.8, 4.7, 4.7, 4.9, 4.7, 4.6],
... "Count": [30, 27, 26, 29, 31, 28, 28, 26, 33, 26],
... })
>>> ratings.select(pl.col("Theatre").value_counts()).collect(engine=pl.GPUEngine(raise_on_fail=True))
...
shape: (5, 1)
┌───────────┐
│ Theatre │
│ --- │
│ struct[2] │
╞═════════==╡
│ {"NE",3} │
│ {"ND",1} │
│ {"ME",1} │
│ {"SD",2} │
│ {"IL",3} │
└───────────┘
Yeni Algoritmalar ile Daha Hızlı Analizler
25.08 sürümü ile cuML, Spectral Embedding algoritmasını da ekledi. Bu algoritma, yüksek boyutlu verileri daha düşük boyutlu alanlara yerleştirmeye yönelik bir yaklaşımdır.
Bu algoritmanın API’si, genel olarak scikit-learn ile benzerlik göstermektedir.
from cuml.manifold import SpectralEmbedding
import cupy as cp
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist.data, mnist.target.astype(int)
spectral = SpectralEmbedding(n_components=2, n_neighbors=None, random_state=42)
embedding = spectral.fit_transform(cp.asarray(X, order='C', dtype=cp.float32))
Bunun yanı sıra, cuml.accel artık LinearSVC, LinearSVR ve KernelRidge algoritmalarını da hızlandırıyor. Bu, makine öğrenmesi alanındaki kullanıcıların süreçlerini daha da hızlandırmasına yardımcı olacak.
CUDA 11 Desteğinin Kesilmesi
25.08 sürümü ile birlikte, CUDA 11 desteği sona erdirilmiştir. Kullanıcıların CUDA 11 ile devam edebilmesi için RAPIDS 25.06 sürümüne geçmeleri önerilmektedir.
Gelişmeler hakkında daha fazla bilgi için RAPIDS belgelerini inceleyebilirsiniz.
Sonuç
NVIDIA RAPIDS 25.08 sürümü, veri bilimi süreçlerini hızlandırma ve optimize etme konusunda önemli adımlar atmıştır. cuml.accel profil aracı, geliştiricilere makine öğrenmesi kodlarının performansını iyileştirecek güçlü araçlar sunuyor. Polars GPU motorundaki güncellemeler ise daha büyük veri kümelerinin verimli bir şekilde işlenmesini mümkün kılıyor. Yeni algoritmaların eklenmesi de makine öğrenmesi ekosistemini daha da güçlendiriyor. Tüm bu gelişmeler, hızlandırılmış veri bilimi alanını daha erişilebilir ve verimli hale getiriyor.
Geri bildiriminizi GitHub üzerinden iletebilirsiniz. Ayrıca, GPU hızlandırmalı veri işleme konusunda sohbet etmek için 3,500’den fazla üyesi bulunan RAPIDS Slack topluluğuna katılabilirsiniz.
RAPIDS’e yeni başlayanlar için kaynaklar ve Sıfır Kod Değişikliği ile Veri Bilimi İş Akışlarını Hızlandırma kursunu ücretsiz olarak alma fırsatını kaçırmayın. Hızlandırılmış veri bilimi hakkında daha fazlası için DLI Öğrenme Yolu’nu keşfedin ve GPU Hızlandırması ile Tabular Veriler için Özellik Mühendisliğinde En İyi Uygulamalar gibi uygulamalı bir kursa kaydolun.