Hücre biyolojisi ve sanal hücre modellerinin geleceği, verilerin ölçekli bir şekilde ölçülmesi ve analiz edilmesine bağlı. Son 10 yılda, tek hücre denemeleri inanılmaz bir hızla arttı. İlk başlarda yüzlerce hücreyle başlayıp, şimdi milyarlarca hücreyle yeni veri üretim çabalarına doğru ilerleniyor.
Sanal hücre modelleriyle de, aynı şekilde milyarlarca sanal hücre üretiliyor. Bu veri seli ve yeni model geliştirme çalışmaları, bilim insanlarının yenilikçi biyoloji keşfetmesine, yeni tedaviler geliştirmesine ve hastalık ile yaşlanma sürecini araştırmasına yardımcı olacak.
Veri Analizindeki Zorluklar
Veri işleme ve analiz, biyolojik yorumlar ile model geliştirme için kritik öneme sahiptir. Ancak büyük ölçekli veri setlerinin hızla büyümesi, iki ana veri işleme zorluğu doğurmuştur:
- Veri boyutu: Milyonlarca hatta milyarlarca hücreyi analiz etme kapasitesinin olmaması.
- Analiz hızı: Önemli, uzman görüşü gerektiren analiz adımları için saatler süren bekleme süreleri.
RAPIDS-singlecell ile Veri İşleme Sorunlarını Çözme
Normalizasyon, boyutsal azaltma, kümeleme ve parti entegrasyonu gibi analiz adımları, tek hücre veri analizi, yorumlama ve model geliştirme için çok önemlidir. RAPIDS-singlecell, veri boyutu ve analiz hızı zorluklarını ele alan açık kaynaklı bir araçtır. CuPy ve NVIDIA RAPIDS ile GPU hızlandırmasını kullanarak, topluluk standardı olan AnnData veri yapısı üzerinde doğrudan çalışır.
RAPIDS-singlecell, kullanıcıların standart NumPy sözdizimine benzeyen Python kodları yazmasına izin veren CuPy kütüphanesinin gücünden yararlanır. Bu sayede, NVIDIA GPU’larının paralel hesaplama yeteneklerini kullanarak veri işleme işlemleri gerçekleştirir. Ayrıca, şu araçlar da kullanılmaktadır:
RAPIDS ve NVIDIA CUDA kütüphaneleri | Tek hücre analizi için örnek görevler |
NVIDIA cuML | Boyutsal azaltma: PCA, UMAP ve t-SNE |
NVIDIA cuGraph | Leiden ve Louvain gibi graf tabanlı hesaplamalar ile hücre kümeleme |
Dask | 100+ M hücreye kadar ölçekleme, çoklu GPU ve düğümler aracılığıyla paralel yürütme |
RAPIDS Bellek Yöneticisi | Verilerin otomatik olarak ana bellek taşınmasını sağlar, böylece büyük ölçekli tek hücre analizi yapılabilir. |
Geleceği Şekillendiren Analiz Hızları
Veri boyutu sorununu çözme çabaları, tek hücre analizinin gelecekte daha etkili hale gelmesinde büyük rol oynayacaktır. Örneğin, Noetik, insan tümör ve sağlıklı kontrol dokularından elde edilen petabaytlarca mekansal veriye dayanan OCTO-vc isimli bir temel model geliştirmiştir.
Noetik’in baş bilim insanı Jacob Rinaldi, “Hızlandırılmış hesaplama olmadan, bu büyüklükteki veri setlerini analiz etmek mümkün değildi. NVIDIA ile, sanal hücre denemelerimiz 5.5 milyardan fazla sanal hücre üretti,” demektedir. “Artık bu büyüklükteki veri setlerini desteklemenin yanı sıra, algoritmalar ve veri seti ölçekleri arasında analizi de hızlandırabiliyoruz.”
RAPIDS-singlecell ile analiz, saatlerce beklemekten, neredeyse gerçek zamanlı hale gelmiştir; örneğin 470 kat daha hızlı UMAP işleminin süresi, 12.85 dakikadan 1.64 saniyeye ve 1958 kat daha hızlı Leiden kümeleme süresi ise 7.83 saatten 14.4 saniyeye düşmüştür.
Anahtar Gelişmeler
RAPIDS-singlecell, yüz milyonlarca hücreyi saniyeler içinde analiz edebilirken, aynı zamanda tek bir GPU üzerinde milyonlarca hücre analiz edebilir. Aşağıda, RAPIDS-singlecell’ın en son sürümünün performans ölçümleri verilmiştir.
Bu ölçümler tek bir GPU üzerinde gerçekleştirilmiştir ve hızlar veri setine, GPU örneğine ve bellek durumuna bağlı olarak değişiklik gösterebilir.
1M hücre için tek GPU performans ölçümleri | ||||
İş yükü | Temel | NVIDIA L40S GPU | NVIDIA RTX PRO 6000 Sunucu Sürümü | NVIDIA DGX B200 |
QC | 13.6 | 0.5 | 0.2 | 0.2 |
Yüksek değişken genler | 27.0 | 8.7 | 0.4 | 0.3 |
Regress out | 8.2 | 2.7 | 0.2 | 0.2 |
Ölçek | 15.4 | 0.3 | 0.2 | 0.1 |
PCA | 141.0 | 18.1 | 2.0 | 1.2 |
Tüm ön işleme | 313.0 | 40.0 | 4.1 | 2.9 |
Komşular | 219.0 | 4.0 | 1.9 | 1.7 |
UMAP | 574.0 | 2.4 | 1.7 | 1.2 |
Louvain kümeleme | 422.0 | 4.4 | 1.8 | 1.5 |
Leiden kümeleme | 1521.0 | 3.2 | 1.7 | 1.5 |
tSNE | 2010.0 | 33.2 | 15.9 | 14.6 |
Difüzyon haritası | 77.0 | 4.4 | 1.3 | 1.2 |
Toplam işleme süresi | 5176.0 | 92.0 | 28.4 | 24.6 |
Hızlandırılmış Analizlerin Gücü
En yeni RAPIDS-singlecell desteği ile NVIDIA Blackwell GPU’ları kullanılarak analiz süreleri önemli ölçüde azalmaktadır. Bu tür iş akışları, bilim insanlarının hücre popülasyonlarını keşfetmesine ve alt kümelerin veya nadir hücre alt gruplarının derinlemesine incelenmesine olanak tanır.
Ek GPU’lar ve yeni mimariler, analiz süresini önemli ölçüde kısaltmaktadır. Örneğin, 95M hücreden oluşan bir veri setinde PCA işlemi, Blackwell GPU’larında 10 saniyeden daha kısa bir sürede tamamlanabilir. Aşağıda, 11M hücre için çoklu GPU benchmark sonuçları verilmiştir.
Adım | NVIDIA RTX PRO 6000 Sunucu Sürümü (8 GPU) | NVIDIA DGX B200 (8 GPU) |
Log normalize | 0.33 | 0.27 |
Yüksek değişken genler | 0.42 | 0.44 |
Ölçek | 0.59 | 0.53 |
PCA | 1.62 | 1.73 |
Komşular | 23.7 | 20.9 |
UMAP | 10.5 | 11.7 |
Leiden kümeleme | 18 | 17.6 |
Veri Entegrasyonunu Kolaylaştırmak için Harmony
Artık büyük tek hücre veri küme ve modellemeleri büyürken, veri setlerini deneyler arasında entegre etme araçlarına duyulan ihtiyaç artmıştır. RAPIDS-singlecell, Harmony, bir parti entegrasyonu aracı olan ve parti etkilerini ortadan kaldırarak biyolojik içgörüler ortaya çıkarmaya yardımcı olmaktadır. RAPIDS-singlecell versiyonu artık MIT lisanslıdır ve genel olarak kullanılan bir sıcak kodlama matrisinin yerine etiket vektör kodlaması kullanmaktadır.
Aşağıda, CZI cellxgene deposundan elde edilen bir veri seti örneği gösterilmektedir. Başlangıçtaki UMAP analizi, hücrelerin çoğunun analiz sürümüne göre kümelendiğini göstermektedir. Ancak Harmony parti entegrasyonu uygulandıktan sonra, birçok parti etkisi ortadan kaldırılmakta ve hücre tipleri ortaya çıkmaktadır.

RAPIDS-singlecell üzerinde Harmony, CPU ile karşılaştırıldığında 350 kat daha hızlı gerçekleştirilebilir ve 11M hücre için analiz süresini saatlerden saniyelere indirgeyebilir.
Hücre sayısı | Temel | NVIDIA A10 Tensor Core GPU | NVIDIA L40S GPU | NVIDIA RTX PRO 6000 Sunucu Sürümü | NVIDIA DGX B200 |
90,000 | 120 | 3.3 | 2.6 | 1.6 | 1.6 |
200,000 | 182 | 3.2 | 2.8 | 1.9 | 1.6 |
2,000,000 | 1172 | 8 | 5.9 | 4.3 | 3.8 |
11,000,000 | >7150 | 46.4 | 42.7 | 19.7 | 21.7 |
RAPIDS-singlecell ile Başlamak
RAPIDS-singlecell ile başlamak için aşağıdaki eğitici kaynaklardan yararlanabilirsiniz:
- RAPIDS-singlecell belgeleri
- Tek Hücre Analiz Mavisi: Kullanıcıların RAPIDS-singlecell’ın özelliklerini anlamasını sağlayan Jupyter not defterleri.
- Dijital Biyolojide Veri Bilimini Hızlandırma ve Temel Modellerden Faydalanma eğitimi, RAPIDS-singlecell kullanarak veri setini temizlemeyi ve verileri Geneformer’ı yeniden eğitimi için kullanmayı gösterir.
- NVIDIA Genomics genel bakış sayfası, Genomlar için NVIDIA araçlarını kapsamaktadır.
Teşekkürler
scverse çekirdek ekibine, özellikle Philipp Angerer, Ilan Gold, Lukas Heumos ve Issac Virshup’a, RAPIDS-singlecell’a katkıları için teşekkür ederiz.
Ayrıca, tek hücre mavi planına katkıda bulunan ve Harmony konusunda geri bildirimde bulunan önemli isimlere de teşekkürlerimizi sunuyoruz: Alice Hsiung, Chelsea Gomatam, Daniel Burkhardt, Deven Yue, Eric Phan, Michelle Gill, Narges Masoudi ve Seth Poulos. Ayrıca Brev ekibine, Alec Fong, Anish Maddipoti, Carter Abdallah ve Tyler Fong için teşekkür ederiz.