NVIDIA Parabricks, ölçeklenebilir bir genom analiz yazılımıdır. Bu yazılım, hızlandırılmış bilişim ve derin öğrenme teknolojileri sayesinde omik sorunları çözer ve yeni bilimsel ilerlemelerin kapılarını aralar. NVIDIA Parabricks v4.4, Amerikan İnsan Genetiği Derneği (ASHG) ulusal toplantısında duyurulan yeni özellikler ve işlevsellikler ile gelmiştir.
Parabricks v4.4 sürümünün en önemli yeniliği, Giraffe için hızlandırılmış pangenom grafı hizalaması desteği sunmasıdır. Ayrıca, Minimap2 ve GATK HaplotypeCaller için ek işlevler ve performans iyileştirmeleri de içermektedir. Bu sürümde, genetik dizilim ve yazılım platformları ile desteklemeye yönelik iş birlikleri de genişletilmiştir.
Yeni Özellikler
- Tek uç ve çift uç desteği ile GPU hızlandırmalı Giraffe
- PacBio için yerel girdi ve çıktı desteği sunan Pbmm2 sarıcı
- GATK HaplotypeCaller’da allele seçeneği desteği
- Uygun bulunmamış BAM’lar için FQ2BAM (BWA-MEM) ve Minimap2 desteği
Geliştirilmiş Özellikler
- PacBio ve Oxford Nanopore (ONT) verileri için daha hızlı Minimap2
- ONT verileri için DeepVariant hızlandırması
- 2 kat hızlandırma ile daha hızlı CRAM dosyası yazıcı
- Tek bir GPU sistemi (NVIDIA Grace Hopper) kullanarak <30 dakikada sonuca ulaşabilme
Yeni İş Birlikleri ve Benchmarklar
- Complete Genomics verileri Parabricks ile desteklenmektedir
- Parabricks artık Basepair platformunda mevcut
- DeepSomatic ve Giraffe için güncellenmiş benchmarklar
Parabricks v4.4’ün en son sürümü, bilim insanlarının ve araştırmacıların Giraffe’ı kullanarak pangenom hizalaması yapmalarına olanak tanır. Pangenomları anlamak, genetik çeşitliliği ortaya çıkarmaya yardımcı olurken, pangenomların hızlandırılmış versiyonuyla bilim insanları yeni biyolojik bulguların keşfine daha hızlı ulaşabilir.
Pangenomlar Üzerinden Genetik Çeşitliliği Anlamak
Hastalığın temel nedenlerini anlamak için geçmişte bireylerin genomları lineer referans genoma göre karşılaştırılmıştır. Ancak, lineer referans genom, bireylerin DNA’sından oluşturulmuş bir ortalama genomdur ve bir bireyin DNA dizilimidir denilemez. Bu, yalnızca tek bir konsensüs haplotipinin temsilidir.
Genome Reference Consortium Human Build 38 (GRCh38), genetik çalışmalarda en çok kullanılan referans genomdur. Ancak, bu yaklaşım hatalara ve önyargılara yol açabilir; özellikle tekrarlanan veya polimorfik bölgelerde. Ayrıca, azınlık popülasyonlarının genetik çeşitliliğini yetersiz bir şekilde temsil edebilirken, genetik çeşitliliğin tüm spektrumunu anlamayı sınırlamaktadır.
Buna karşın, graf tabanlı pangenomlar, birden fazla referans genomun birleştirilmesiyle zengin bir çözüm sunar. Bu yaklaşım, bir tür içindeki genetik çeşitliliği etkili şekilde yakalar ve farklı genomlardaki varyasyonları daha doğru bir şekilde tespit eder. Genomik verilerin grafik olarak temsil edilmesi, pangenom grafikleri sayesinde kapsamlı ve tarafsız genetik varyasyon analizine olanak tanır ve tek referans genomuna bağımlılığın getirdiği sınırlamaları aşar.
Graf Genomları
Pangenom verilerini temsil etmek için graf genomları, birden fazla genomun genetik varyasyonunu temsil etmek için birleşik bir çerçeve sağlar. Verilerin grafik yapısı, yapısal değişikliklerin daha kolay anlaşılmasını sağlar; bu, eklemeler, çıkarımlar ve yeniden düzenlemeleri içerir.
Graf genomları, varyant çağrısında doğruluğu artırarak genetik varyantların tespitini kolaylaştırır. Ancak, grafik tabanlı temsiller, tek referansın lineer dizileri ile karşılaştırıldığında hizalama işlemlerinde daha fazla karmaşıklık getirir. Ayrıca, graf genomları boyut ve karmaşıklık açısından büyüdükçe, hesaplama gereksinimleri ve işleme maliyetleri artabilir.
Giraffe ile Pangenom Hizalamasını Hızlandırmak
Giraffe, pangenom graf hizalamasını destekleyen bir yazılım aracıdır. California Üniversitesi, Santa Cruz tarafından geliştirilmiş olup, büyük ölçekli genom dizilim projelerinde kullanılmaktadır. Yeni genom dizilimlerinin pangenoma karşılaştırılmasına yardımcı olur.
Parabricks’in en son v4.4 sürümüyle birlikte, Giraffe artık tek uç ve çift uç veriler için GPU hızlandırmalı pangenom hizalaması sunmaktadır. Ayrıca, sonuçlar tamamen Giraffe’ın açık kaynak sürümüyle eşdeğer olup, araştırmacılar Parabricks v4.4’ü kullanarak açık kaynak bir aracı yeniden üretebilirler. Bu sayede, bilim insanları genetik varyasyonlar ve çeşitli popülasyonlar arasında daha yüksek doğrulukla varyant çağrısı yapma imkânı bulurlar.
“Mevcut insan referans genomu, insan genetiği araştırmaları için yirmi yıldan fazla bir süredir köşe taşı olmuştur.” diyor Dr. Benedict Paten, California Üniversitesi Genomik Enstitüsü profesörü ve yardımcı direktörü. “Ancak, her kromozom için yalnızca bir temsilci dizisi içerdiğinden, nüfusumuzda mevcut zengin varyasyonu tanımlamak için yeterli değildir. Nüfusumuzun yaygın genetik çeşitliliğini anlamak için bir insan pangenomu gereklidir.”
“Pangenomlar, gelecekte yüzlerce veya binlerce bireysel genomu bir referans yapısı içinde kodlayabilir.” diyor Dr. Paten. “Bu durum, araştırma ve gelecekte kullanılan bireysel çeşitliliğin dikkate alınmasını sağlıyor. UCSC’de, pangenomu kullanmak için araçlar geliştirmeye adanmış bir araştırma ekibimiz var. Bu, yeni bir örneği pangenoma eşleştirmek için kullanılan Giraffe’ı içeriyor. NVIDIA ekibi ile Giraffe’ı hızlandırmak için çalışmaktan heyecan duyuyoruz ve bu, gelecekte büyük bir etki yaratma potansiyeline sahip.”
Yeni İş Birlikleri
Parabricks v4.4’ün öne çıkan yeni özelliklerinin yanı sıra, NVIDIA, genomik dizilim ve yazılım platformlarıyla iş birliklerini de genişletmiştir. Bu iş birlikleri arasında Complete Genomics ve Basepair bulunmaktadır.
Complete Genomics
Complete Genomics, genomikleri ileri taşımayı ve hayatları iyileştirmeyi hedefleyen kapsamlı dizilim çözümleri sunmaktadır. WGS, tek hücre analizi, mekansal transkriptomik ve mikrobiyoloji gibi çok sayıda uygulama sunmaktadır. Bu teknoloji, yüksek doğruluk ve düşük hata oranlarıyla derin dizilim kapsamı sağlamaktadır.
Parabricks’in germline iş akışları artık Complete Genomics dizilim cihazlarıyla, DNBSEQ-T7 ve DNBSEQ-G400 ile kullanılabilmektedir. DNBSEQ teknolojisi ile Parabricks entegrasyonu, ikincil genomik analizler için hızlandırılmış ve maliyeti düşüren bir çözüm sunmaktadır. Örneğin, DNBSEQ-T7 dizilim cihazında 30x WGS örneğini yalnızca birkaç dakika içinde işleme alabilir.
- Hız: Dört NVIDIA L40 GPU ile 16 dakika
- Maliyet: Dört NVIDIA L4 GPU ile $2.67 maliyet
“NVIDIA Parabricks entegrasyonumuz, DNBSEQ-T7 dizilim platformumuzun tüm potansiyelini kullanmamıza olanak tanıyor.” diyor Rob Tarbox, Complete Genomics Ürün ve Pazarlama Başkan Yardımcısı. “Yüksek kaliteli dizilim verilerimizi, Parabricks’in hızı ve doğruluğuyla birleştirerek, araştırmacıların varyantları daha etkili ve maliyet etkin bir şekilde keşfetmelerini sağlıyoruz. Bu, nihayetinde hassas tıbbı ilerletmekte ve hasta sonuçlarını iyileştirmektedir.”
Basepair
Basepair, bir sonraki nesil dizilim (NGS) veri analiz platformudur. Nokta ve tıklama kullanıcı arayüzü, genomik veri analizini ve görselleştirmeyi daha geniş bir bilim insanı kitlesine daha erişilebilir hale getirmektedir.
Artık kullanıcılar, AWS’den HealthOmics ile güçlendirilmiş bir arayüz üzerinden Parabricks’i kullanarak genomic verilerini analiz edebilir. Parabricks’in Basepair üzerinde kullanılması, kullanıcıların yalnızca kendi AWS hesaplarında analizleri gerçekleştirmelerini sağlamakla kalmayıp, aynı zamanda etkileşimli görselleştirmeler sunmaktadır.
“Parabricks’i Basepair üzerinde desteklemekten çok mutluyuz, hızlandırılmış araçları kullanıcılarımıza daha kapsamlı ve görsel bir şekilde sunmak için birlikte çalışarak daha geniş bir bilim insanı kitlesine ulaşmayı hedefliyoruz.” diyor Simon Valentine, Basepair Ticari Müdürü.
Son Parabricks Benchmarkları
NVIDIA, her sürüm için yeni özelliklerin ve güncellemelerin yanı sıra, enstrümanlar, araçlar ve GPU’lar arasındaki benchmark performansını sürekli iyileştirmeye çalışmaktadır. Aşağıdaki tablo, en popüler NVIDIA GPU’larıyla yapılan en son benchmarkları göstermektedir; burada en hızlı hız için NVIDIA H100 ve en düşük maliyet için NVIDIA L4 kullanılmıştır – bunlar arasında Giraffe ve DeepSomatic bulunmaktadır.
NVIDIA H100 GPU En Hızlı Hız |
NVIDIA L4 GPU En Düşük Maliyet |
|||
2 GPU | 4 GPU | 2 GPU | 4 GPU | |
Giraffe | 65.8 | 42.1 | 84.9 | 44.7 |
DeepSomatic | 56.28 | 35.13 | 215.53 | 108.55 |
FQ2BAM (BWA-MEM) | 13.8 | 9.15 | 48.15 | 27.88 |
BWA-Meth | 27.43 | 15.12 | 77.35 | 39.77 |
DeepVariant | 9.6 | 5.82 | 23.48 | 13.10 |
HaplotypeCaller | 10.57 | 4.90 | 12.00 | 7.73 |
Mutect2 | 25.80 | 13.60 | 55.8 | 32.50 |
30x tüm genom, FQ2BAM (BWA-Mem), BWA-Meth, DeepVariant ve Haplotype Caller ile Illumina verisi için dizilendi.
50x tüm genom dizilimi, DeepSomatic ve Mutect2 ile Illumina verisi kullanılarak gerçekleştirildi.
Hızlanmaya Başlayın
NVIDIA Parabricks v4.4 ile birlikte, graf genomları kullanan bilim insanları artık Giraffe ile pangenom hizalaması yapabilirler. Parabricks v4.4, UCSC’nin devrim niteliğindeki aracını güçlendirerek hızlandırılmış bir Giraffe versiyonu sunmaktadır; böylece yeni biyolojik keşifler daha hızlı bir şekilde yapılabilmektedir.
Hızlandırılmış genomik analiz için NVIDIA Parabricks’i indirerek başlayın ve NVIDIA Parabricks Geliştirici Forumunda tartışmalara katılın.