Veri bilimciler ve biyoinformatikçiler için geliştirilmiş olan NVIDIA Parabricks, ikincil analizler için ölçeklenebilir bir genom yazılım setidir. Açık kaynaklı araçların GPU hızlandırmalı versiyonlarını sunarak hız ve doğruluk artışı sağlayan bu yazılım, araştırmacıların biyolojik bulgulara daha hızlı ulaşmalarını mümkün kılar.
En son sürüm olan Parabricks v4.6, birçok özelliğe yönelik geliştirmeler sunmaktadır; özellikle Google’ın DeepVariant ve DeepSomatic 1.9 desteği ile dikkat çekmektedir. Bu sürüm, genetik çeşitlilik ve farklı popülasyonlar arasında doğruluğu artıran pangenom bilinciyle çalışan DeepVariant modunu içermektedir.
Yeni Özellikler
- DeepVariant ve DeepSomatic 1.9, pangenom bilinciyle çalışan DeepVariant dahil.
- DeepSomatic uzun okuma ve tüm ekzom dizileme (WES) desteği.
- STAR quantMode ile birlikte GeneCounts özelliği.
Geliştirilmiş Özellikler
- STAR hızlandırmaları: CPU tabanlı çözümlere kıyasla iki NVIDIA RTX PRO 6000 GPU’da neredeyse 8 kat daha hızlı.
- Mutectcaller için ek argümanlar, mitokondrial mod dahil.
DeepVariant ve DeepSomatic ile Varyant Belirlemede İyileşme
Varyant belirleme, genom analizinin kritik bir adımıdır. Bu süreç, örnek genomun (örneğin, bir birey veya popülasyon) referans genom ile olan farklılıklarını tanımlar. Genetik farklılıkları anlamak, bilim insanlarının hastalıkların ve olası tedavilerin anlaşılmasına yardımcı olur.
Varyant belirleme için HaplotypeCaller ve Mutect2 gibi birçok araç geliştirilmiştir; bunlar, Broad Institute’un Genomic Analysis Toolkit (GATK) içerisinde yer alır. GATK’nın sunduğu endüstri standartlarına ek olarak, derin öğrenme tabanlı varyant belirleyiciler de yaygın bir şekilde kullanılmaktadır.
Google tarafından geliştirilen DeepVariant ve DeepSomatic, varyant belirleme işlemlerini derin öğrenme teknolojisi ile desteklemektedir. Germline verileri için DeepVariant, kalıtılan varyantları tanımlar. Buna karşın, DeepSomatic ise tümör hücrelerinde bulunan somatik varyantların etkilerini gösterir.
Varyant belirleme doğruluğunu artırmak, genetik çeşitliliği göz önünde bulundurmak açısından kritik öneme sahiptir. Son bir çalışmaya göre, pangenom bilinci ile çalışan DeepVariant, doğru ayarlarda %25.5 oranında hata oranını azaltmıştır ve bu, lineer referans tabanlı DeepVariant ile yapılan karşılaştırmalar sonucundadır.
Andrew Carroll, Google Research’teki ürün lideri, “Genetik çeşitliliği dikkate almak, özellikle farklı popülasyonlar arasında doğru genom analizleri için önemlidir. Yeni pangenom yöntemleri, analizleri bilgilendirmek için genetik varyasyonu daha kapsamlı bir şekilde haritalamayı mümkün kılar” diye belirtmiştir. “Parabricks v4.6’nın pangenom bilinci ile çalışabilen DeepVariant v1.9 desteği, Parabricks’in sağladığı hıza DeepVariant’in pangenom bilgilerini kullanma yeteneğini ekleyerek bu durumu heyecan verici kılıyor.”
Giraffe ve DeepVariant v1.9 ile Daha Fazla Doğruluk
Geleneksel lineer referanslar, Genome Reference Consortium Human Build 38 (GRCh38) dâhil olmak üzere, yalnızca birkaç bireyin DNA’sından oluşturulmuştur ve bu da genom araştırmaları için evrensel bir koordinat sistemi sağlar. Ancak, bu referanslar, insan popülasyonları arasındaki genetik çeşitliliğin tam spektrumunu yakalamaz. Bu durum, önemli alt popülasyon çeşitliliğinin sıklıkla yeterince temsil edilmemesine neden olur ve bu da okumaların haritalanması ve varyant tespiti gibi sonrasındaki analizlerde yanlılığa yol açabilir.
Pangenomlar ise, farklı bireylerden alınan birden fazla yüksek kaliteli genomu birleştirerek oluşturulur ve insan popülasyonlarında bulunan çok daha geniş bir genetik çeşitliliği yakalar. Bu kapsamlı yaklaşım, referans yanlılığını azaltır, varyant tespitini geliştirir ve daha doğru ve eşitlikçi genom analizlerini destekler. Giraffe, University of California, Santa Cruz’taki araştırmacılar tarafından geliştirilmiş bir yazılım aracıdır ve pangenom grafikleri üzerinde etkili okuma hizalaması sağlar.
Giraffe, genom dizilerini geleneksel bir lineer referansa değil, referans pangenomuna haritalandırır ve bu da çeşitli popülasyonlar arasında varyant belirleme doğruluğunu artırır. Parabricks v4.6 sürümünde şimdi mevcut olan pangenom bilinci ile çalışan DeepVariant ile birleştirildiğinde, belirlenen varyantların doğruluğunu artırır ve Parabricks’in GPU hızlandırmasıyla hızlı sonuçlar elde edilmesini sağlar.
- Doğruluk: Açık kaynak pangenom bilinci ile çalışan DeepVariant, BWA’dan daha yüksek bir doğruluk göstermektedir. Pangenom bilinci ile çalışan DeepVariant Üzerine F1 puanları:
- Pangenom bilinci ile çalışan DeepVariant: SNP: 0.9981 | Indel: 0.9971
- BWA: SNP: 0.9973 | Indel: 0.9968
- Hız: Parabricks’in GPU hızlandırmasını kullanarak Giraffe ve DeepVariant sürelerinde, CPU tabanlı Giraffe ve pangenom bilinci ile çalışan DeepVariant’a göre %14’ten fazla hız artışı sağlanmıştır. Bu hız artışı, dört NVIDIA RTX PRO 6000 GPU kullanarak sağlanmıştır.
Roche’un SBX teknolojisi, farklı dizileme uygulamaları için benzersiz veri oranları ve esnek veri işleme iş akışları sağlamaktadır,” diyor Roche’da Hesaplamalı Bilimler Başkan Yardımcısı John Mannion. “NVIDIA ile yaptığımız iş birliği sayesinde, Giraffe dahil birçok hizalayıcının GPU hızlandırmalı versiyonlarını kullanarak, kullanıcılar için daha hızlı ve daha doğru analiz sağlayacak entegre bir çözüm sunmayı planlıyoruz.”
Giraffe ve DeepVariant ile Başlayın
Parabricks’in mevcut kullanıcıları, DeepVariant’ı çalıştırmak için şunları sağlamalıdır:
- Giraffe indeks dosyalarından uygun bir FASTA referans dosyası,
- BAM dosyası ve Giraffe çalıştırılarak elde edilen graf GPZ dosyası.
Bu dosyaları edinme talimatları, Parabricks Giraffe belgelendirmesinde mevcuttur ve Varyant Belirleme İş Akışlarında Giraffe Kullanımı üzerine odaklanmaktadır. Ayrıca, takip edilmesi gereken adımlar aşağıda verilmiştir.
Adım 1
Öncelikle, grafikten bir FASTA dosyası oluşturmak için temel VG’yi çalıştırın.
Adım 1, temel VG ile tek seferlik bir çalışmadır. Grafikten FASTA dosyası alındıktan sonra, Adım 1’i tekrar çalıştırmanıza gerek yoktur. Bunun yerine, daha fazla FASTQ örneği işlemek için sadece Adım 2 ve Adım 3’ü takip edin.
# Dizi listesine karşılık gelen dizileri FASTA dosyasına çıkarın
docker run --rm --volume $(pwd):/workdir
--workdir /workdir
quay.io/vgteam/vg:v1.59.0
vg paths -x hprc-v1.1-mc-grch38.gbz -p hprc-v1.1-mc-grch38.paths.sub -F > hprc-v1.1-mc-grch38.fa
# FASTA dosyasını indeksleyin
samtools faidx hprc-v1.1-mc-grch38.fa
Adım 2
Ardından, Giraffe’yi normal şekilde çalıştırın.
# Bu komut tüm girdilerin geçerli çalışma dizininde olduğunu varsayar ve tüm çıktılar aynı yere gider.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir
--workdir /workdir
nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1
pbrun giraffe --read-group "sample_rg1"
--sample "sample-name" --read-group-library "library"
--read-group-platform "platform" --read-group-pu "pu"
--dist-name /workdir/hprc-v1.1-mc-grch38.dist
--minimizer-name /workdir/hprc-v1.1-mc-grch38.min
--gbz-name /workdir/hprc-v1.1-mc-grch38.gbz
--ref-paths /workdir/hprc-v1.1-mc-grch38.paths.sub
--in-fq /workdir/${INPUT_FASTQ_1} /workdir/${INPUT_FASTQ_2}
--out-bam /outputdir/${OUTPUT_BAM}
Adım 3
Son olarak, bu üç dosya DeepVariant için girdi olarak kullanılabilir. Pangenom_bilinci_deepvariant’i, Adım 2’den gelen BAM dosyasıyla, Adım 1’den gelen FASTA dosyası ile ve graf GBZ dosyası ile çalıştırın.
# Pangenom_bilinci_deepvariant
# Bu komut tüm girdilerin geçerli çalışma dizininde olduğunu varsayar ve tüm çıktılar aynı yere gider.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir
--workdir /workdir
nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1
pbrun pangenome_aware_deepvariant
--ref /workdir/hprc-v1.1-mc-grch38.fa
--pangenome /workdir/hprc-v1.1-mc-grch38.gbz
--in-bam /workdir/${INPUT_BAM}
--out-variants /outputdir/${OUTPUT_VCF}
STAR’daki Geliştirmeler: quantMode GeneCounts
DeepVariant için pangenom bilinci yanında, Parabricks’in en son sürümü aynı zamanda STAR üzerinde de iyileştirmeler sunmaktadır. STAR, RNA dizileme hizalamasını hızlandırmak için kullanılan bir araçtır ve RNA-seq verileri için hızlı ve doğru performans sunarak büyük veri kümeleriyle ölçeklenebilirlik sağlamaktadır. Parabricks’te zaten bulunmaktaydı; ancak, GPU hızlandırması sayesinde, CPU tabanlı çözümlere göre neredeyse 8 kat hız artışı sağlanmıştır.
Parabricks’in en son sürümünde, STAR için yeni bir seçenek olan quantMode GeneCounts özelliği, gen ekspresyonu, QC, normalizasyon ve veri entegrasyonu gibi birçok uygulama için değerlidir. Hizalama adımında, quantMode GeneCounts hızlı bir şekilde gen seviyesinde okuma sayıları üretimini sağlar.

STAR ile Başlayın
QuantMode GeneCounts, STAR’a eklenebilecek bir argüman olarak kullanılabilmektedir. Aşağıdaki örnek komutu inceleyebilirsiniz:
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir
--workdir /workdir
nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1
pbrun rna_fq2bam
--genome-lib-dir ${GENOME_DIR}
--in-fq ${FASTQ1} ${FASTQ2}
--output-dir ${OUT_DIR}
--ref ${GENOME}
--out-bam ${OUT_BAM}
--num-gpus ${GPU_NUM}
--quantMode GeneCounts
Parabricks’i Hemen İndirin
NVIDIA Parabricks v4.6 dosyasını indirerek GPU hızlandırmalı genom analizine başlayabilir ve NVIDIA Parabricks Geliştirici Forumu’nda tartışmalara katılabilirsiniz.