SON DAKİKA

Nvdia

“Billion-Hücre Analizi ve Biyolojik Başarımlar İçin RAPIDS-singlecell ile İleri Sürücü”

Hücre biyolojisi ve sanal hücre modellerinin geleceği, verilerin ölçekli bir şekilde ölçülmesi ve analiz edilmesine bağlı. Son 10 yılda, tek hücre denemeleri inanılmaz bir hızla arttı. İlk başlarda yüzlerce hücreyle başlayıp, şimdi milyarlarca hücreyle yeni veri üretim çabalarına doğru ilerleniyor.

Sanal hücre modelleriyle de, aynı şekilde milyarlarca sanal hücre üretiliyor. Bu veri seli ve yeni model geliştirme çalışmaları, bilim insanlarının yenilikçi biyoloji keşfetmesine, yeni tedaviler geliştirmesine ve hastalık ile yaşlanma sürecini araştırmasına yardımcı olacak.

Veri Analizindeki Zorluklar

Veri işleme ve analiz, biyolojik yorumlar ile model geliştirme için kritik öneme sahiptir. Ancak büyük ölçekli veri setlerinin hızla büyümesi, iki ana veri işleme zorluğu doğurmuştur:

  1. Veri boyutu: Milyonlarca hatta milyarlarca hücreyi analiz etme kapasitesinin olmaması.
  2. Analiz hızı: Önemli, uzman görüşü gerektiren analiz adımları için saatler süren bekleme süreleri.

RAPIDS-singlecell ile Veri İşleme Sorunlarını Çözme

Normalizasyon, boyutsal azaltma, kümeleme ve parti entegrasyonu gibi analiz adımları, tek hücre veri analizi, yorumlama ve model geliştirme için çok önemlidir. RAPIDS-singlecell, veri boyutu ve analiz hızı zorluklarını ele alan açık kaynaklı bir araçtır. CuPy ve NVIDIA RAPIDS ile GPU hızlandırmasını kullanarak, topluluk standardı olan AnnData veri yapısı üzerinde doğrudan çalışır.

RAPIDS-singlecell, kullanıcıların standart NumPy sözdizimine benzeyen Python kodları yazmasına izin veren CuPy kütüphanesinin gücünden yararlanır. Bu sayede, NVIDIA GPU’larının paralel hesaplama yeteneklerini kullanarak veri işleme işlemleri gerçekleştirir. Ayrıca, şu araçlar da kullanılmaktadır:

RAPIDS ve NVIDIA CUDA kütüphaneleri Tek hücre analizi için örnek görevler
NVIDIA cuML Boyutsal azaltma: PCA, UMAP ve t-SNE
NVIDIA cuGraph Leiden ve Louvain gibi graf tabanlı hesaplamalar ile hücre kümeleme
Dask 100+ M hücreye kadar ölçekleme, çoklu GPU ve düğümler aracılığıyla paralel yürütme
RAPIDS Bellek Yöneticisi Verilerin otomatik olarak ana bellek taşınmasını sağlar, böylece büyük ölçekli tek hücre analizi yapılabilir.
Şekil 1. Tek hücre analizinde kullanılan belirli görevler için araçların listesi

Geleceği Şekillendiren Analiz Hızları

Veri boyutu sorununu çözme çabaları, tek hücre analizinin gelecekte daha etkili hale gelmesinde büyük rol oynayacaktır. Örneğin, Noetik, insan tümör ve sağlıklı kontrol dokularından elde edilen petabaytlarca mekansal veriye dayanan OCTO-vc isimli bir temel model geliştirmiştir.

Noetik’in baş bilim insanı Jacob Rinaldi, “Hızlandırılmış hesaplama olmadan, bu büyüklükteki veri setlerini analiz etmek mümkün değildi. NVIDIA ile, sanal hücre denemelerimiz 5.5 milyardan fazla sanal hücre üretti,” demektedir. “Artık bu büyüklükteki veri setlerini desteklemenin yanı sıra, algoritmalar ve veri seti ölçekleri arasında analizi de hızlandırabiliyoruz.”

RAPIDS-singlecell ile analiz, saatlerce beklemekten, neredeyse gerçek zamanlı hale gelmiştir; örneğin 470 kat daha hızlı UMAP işleminin süresi, 12.85 dakikadan 1.64 saniyeye ve 1958 kat daha hızlı Leiden kümeleme süresi ise 7.83 saatten 14.4 saniyeye düşmüştür.

Anahtar Gelişmeler

RAPIDS-singlecell, yüz milyonlarca hücreyi saniyeler içinde analiz edebilirken, aynı zamanda tek bir GPU üzerinde milyonlarca hücre analiz edebilir. Aşağıda, RAPIDS-singlecell’ın en son sürümünün performans ölçümleri verilmiştir.

Bu ölçümler tek bir GPU üzerinde gerçekleştirilmiştir ve hızlar veri setine, GPU örneğine ve bellek durumuna bağlı olarak değişiklik gösterebilir.

1M hücre için tek GPU performans ölçümleri
İş yükü Temel NVIDIA L40S GPU NVIDIA RTX PRO 6000 Sunucu Sürümü NVIDIA DGX B200
QC 13.6 0.5 0.2 0.2
Yüksek değişken genler 27.0 8.7 0.4 0.3
Regress out 8.2 2.7 0.2 0.2
Ölçek 15.4 0.3 0.2 0.1
PCA 141.0 18.1 2.0 1.2
Tüm ön işleme 313.0 40.0 4.1 2.9
Komşular 219.0 4.0 1.9 1.7
UMAP 574.0 2.4 1.7 1.2
Louvain kümeleme 422.0 4.4 1.8 1.5
Leiden kümeleme 1521.0 3.2 1.7 1.5
tSNE 2010.0 33.2 15.9 14.6
Difüzyon haritası 77.0 4.4 1.3 1.2
Toplam işleme süresi 5176.0 92.0 28.4 24.6
Şekil 2. RAPIDS-singlecell (v0.12.6) çeşitli GPU mimarilerinde bir milyon hücreyi analiz edebilir.

Hızlandırılmış Analizlerin Gücü

En yeni RAPIDS-singlecell desteği ile NVIDIA Blackwell GPU’ları kullanılarak analiz süreleri önemli ölçüde azalmaktadır. Bu tür iş akışları, bilim insanlarının hücre popülasyonlarını keşfetmesine ve alt kümelerin veya nadir hücre alt gruplarının derinlemesine incelenmesine olanak tanır.

Ek GPU’lar ve yeni mimariler, analiz süresini önemli ölçüde kısaltmaktadır. Örneğin, 95M hücreden oluşan bir veri setinde PCA işlemi, Blackwell GPU’larında 10 saniyeden daha kısa bir sürede tamamlanabilir. Aşağıda, 11M hücre için çoklu GPU benchmark sonuçları verilmiştir.

Adım NVIDIA RTX PRO 6000 Sunucu Sürümü (8 GPU) NVIDIA DGX B200 (8 GPU)
Log normalize 0.33 0.27
Yüksek değişken genler 0.42 0.44
Ölçek 0.59 0.53
PCA 1.62 1.73
Komşular 23.7 20.9
UMAP 10.5 11.7
Leiden kümeleme 18 17.6
Şekil 3. 11M hücre çoklu GPU üzerinde çalıştırıldığında geçen süre saniye cinsindendir.

Veri Entegrasyonunu Kolaylaştırmak için Harmony

Artık büyük tek hücre veri küme ve modellemeleri büyürken, veri setlerini deneyler arasında entegre etme araçlarına duyulan ihtiyaç artmıştır. RAPIDS-singlecell, Harmony, bir parti entegrasyonu aracı olan ve parti etkilerini ortadan kaldırarak biyolojik içgörüler ortaya çıkarmaya yardımcı olmaktadır. RAPIDS-singlecell versiyonu artık MIT lisanslıdır ve genel olarak kullanılan bir sıcak kodlama matrisinin yerine etiket vektör kodlaması kullanmaktadır.

Aşağıda, CZI cellxgene deposundan elde edilen bir veri seti örneği gösterilmektedir. Başlangıçtaki UMAP analizi, hücrelerin çoğunun analiz sürümüne göre kümelendiğini göstermektedir. Ancak Harmony parti entegrasyonu uygulandıktan sonra, birçok parti etkisi ortadan kaldırılmakta ve hücre tipleri ortaya çıkmaktadır.

A UMAP of data before and after batch integration is applied with Harmony.
Şekil 4. Harmony uygulanmadan önce ve sonra verilerin durumu

RAPIDS-singlecell üzerinde Harmony, CPU ile karşılaştırıldığında 350 kat daha hızlı gerçekleştirilebilir ve 11M hücre için analiz süresini saatlerden saniyelere indirgeyebilir.

Hücre sayısı Temel NVIDIA A10 Tensor Core GPU NVIDIA L40S GPU NVIDIA RTX PRO 6000 Sunucu Sürümü NVIDIA DGX B200
90,000 120 3.3 2.6 1.6 1.6
200,000 182 3.2 2.8 1.9 1.6
2,000,000 1172 8 5.9 4.3 3.8
11,000,000 >7150 46.4 42.7 19.7 21.7
Şekil 5. GPU ile CPU üzerindeki Harmony hızları hücre sayısına göre artmaktadır.

RAPIDS-singlecell ile Başlamak

RAPIDS-singlecell ile başlamak için aşağıdaki eğitici kaynaklardan yararlanabilirsiniz:

Teşekkürler

scverse çekirdek ekibine, özellikle Philipp Angerer, Ilan Gold, Lukas Heumos ve Issac Virshup’a, RAPIDS-singlecell’a katkıları için teşekkür ederiz.

Ayrıca, tek hücre mavi planına katkıda bulunan ve Harmony konusunda geri bildirimde bulunan önemli isimlere de teşekkürlerimizi sunuyoruz: Alice Hsiung, Chelsea Gomatam, Daniel Burkhardt, Deven Yue, Eric Phan, Michelle Gill, Narges Masoudi ve Seth Poulos. Ayrıca Brev ekibine, Alec Fong, Anish Maddipoti, Carter Abdallah ve Tyler Fong için teşekkür ederiz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri