Açık araştırma, yeniliği ileriye taşımak için kritik öneme sahiptir. Yapay zeka ve bilim alanındaki birçok atılım, açık işbirlikleri sayesinde gerçekleştirilmiştir. Dijital biyoloji araştırmaları alanında NVIDIA Clara, bu açık iş birliğini destekleyen bir platformdur.
Clara, biyoloji, kimya ve insan sağlığı için modeller, araçlar ve tarifler içeren bir açık kaynak model ailesidir. Küçük moleküllerin tasarımı, sentetik yol tahmini, ADMET (Absorbsiyon, Dağılım, Metabolizma, Eliminasya ve Toksite) özellik tahmini ve protein yapısı-sekans ortak tasarımı gibi çeşitli kullanımları için modeller sunmaktadır. NVIDIA Clara’nın biyoloji ve kimya alanındaki modelleri ve araçlarıyla ilgili daha fazla bilgi almak için NVIDIA Digital Bio GitHub deposunu ziyaret edin.
Bu yazıda, Clara açık model ailesinin yeni bir üyesi olan CodonFM‘yi tanıtıyoruz. CodonFM, RNA üzerine odaklanan bir biyoloji dil modelidir. Modelin tasarımı ve varyant etki tahmini veya mRNA tasarımı gibi çeşitli görevlerde nasıl kullanılabileceği hakkında bilgi veriyoruz.
CodonFM: RNA için Açık Bir Temel Model
Bugün, NVIDIA, Clara açık model ailesine katılan yeni bir CodonFM modeli duyuruyor. CodonFM, RNA’yı her biri üç nükleotidden oluşan kodonlar (üçlüler) şeklinde işleyerek RNA’yı bir cümledeki kelimeler gibi ele alır. Bu yaklaşım, RNA dizilerini doğal sözdiziminde analiz etme imkânı sunarak, genetik kodun karmaşık “gramerini” öğrenmesine yardımcı olur. Sonuç olarak, model, organizmalar arasında kodon kullanımındaki karmaşık ve bağlama bağlı kalıpları anlamaktadır.
Bioloji alanındaki en yaygın dil modelleri genellikle her bir amino asit kalıntısını bağımsız olarak modelleyen protein dil modelleridir. Ancak bu modeller, aynı amino asidin farklı kodonlar (eşanlamlı varyantlar) ile kodlanabileceğini ve hücresel protein sentezi sırasında farklı eşanlamlı kodon varyantlarının farklı protein üretim miktarlarına yol açabileceğini göz ardı eder.
CodonFM, eşanlamlı varyantları dikkate alarak, aynı amino asidi kodlayan farklı RNA dizilerinin biyolojik fonksiyonu nasıl etkileyebileceğini anlamaktadır. Bu, mRNA stabilitesi, çeviri verimliliği ve protein verimi gibi özellikleri tahmin edebilme yeteneği sağlar. Ayrıca, genetik mutasyonlarla ilişkili hastalık risklerini tahmin eden dil modellerinin performansını artırır.
CodonFM, BERT tarzı çift yönlü bir kodlayıcı mimarisi üzerine inşa edilmiştir ve bu da modelin tüm giriş RNA dizisini anlamasını sağlar. 2.046 kodon token’lık geniş bir bağlam penceresi ile model, evrimsel olarak milyarlarca yıl boyunca şekillenen karmaşık, uzun menzilli dizi kalıplarını tanımlar.
CodonFM, 22.000 türden oluşan 131 milyon protein kodlayan dizinin düzenlenmiş bir seti üzerinde eğitilmiştir ve NIH – NCBI RefSeq veri tabanından elde edilen yüzlerce milyar kodon token’ı içermektedir.
CodonFM, 80M, 600M ve 1B parametre boyutlarında çeşitli model boyutları sunmaktadır. Modeller ölçeklendikçe, aynı amino asidi kodlayan eşanlamlı kodonları daha doğru bir şekilde ayırt edebilmektedir. Bu azalma, modelin kodon kullanım kalıplarını ve çeviri ile ilgili dizi bağlamını daha iyi anlamasına yansıyan kodon karmaşası (modelin bir eşanlamlı kodonu diğer bir kodonla yanlış tahmin etme sıklığı) anlamına gelmektedir.
CodonFM’nin Kullanım Alanları
CodonFM, sıfırdan bir model olmadan ve ince ayarlama yapılmış ayarlarla geniş bir uygulama yelpazesi sunmaktadır. Bu bölüm, CodonFM’nin çeşitli yaşam bilimleri uygulamalarındaki performansını vurgulamaktadır.
Varyant Etki Boyutu Tahmini
CodonFM, kodlama dizisini modelleyerek kodon bağlamlarını, fazlalıkları ve düzenleyici kalıpları yakalar. Sonuç olarak, NVIDIA ve Arc Institute işbirliği ile geliştirilen ince ayarlı 1B parametreli Encodon modeli, patojenik anlam taşıyan missense mutasyonlarını saptamada sağlam performans sergilemektedir. Patojenik amino asit değişikliklerini benign varyantlardan ayırt etme konusunda yüksek bir doğruluk oranı göstermektedir.
Daha da önemlisi, CodonFM, eşanlamlı varyantların yorumlanması için daha zor bir alanda bu yeteneğini genişletmektedir. Eşanlamlı mutasyonlar, protein dizisini değiştirmediği için tahmin modellerinin tarihsel olarak yetersiz kaldığı bir alandır. Encodon, kodon kullanımındaki ince değişiklikleri ve çeviri düzeyindeki etkileri tespit edebilmektedir. Patojenik ve benign eşanlamlı varyantları ayırt etmede best-in-class bir başarı sergilemektedir.
mRNA Terapötik Tasarım
mRNA tasarımı, günümüz tedavilerinde önemli bir alan haline gelmiştir. Gen değişimi, protein onarımı ve programlanabilir biyolojik ürünlerin geliştirilmesi gibi birçok olasılığı barındırmaktadır. Bu alandaki başlıca zorluk, dizilim optimizasyonudur; çünkü küçük peptitler veya proteinler bile sayısız eşanlamlı mRNA dizisiyle kodlanabilmektedir ve her biri ifade, stabilite ve immün yanıt gibi farklı yollarla etkilenmektedir.
CodonFM, bu uygulamalar için en iyi tahmin çerçevesini sunarak, çeşitli mRNA stabilitesi ve ifade benchmarkları arasında durumunda performans göstermektedir.
CodonFM ile İnce Ayar Yapmak
CodonFM deposu, kullanıcıların önceden eğitilmiş modeli kendi ihtiyaçlarına göre ince ayar yapabilmesini sağlayan çok sayıda strateji içermektedir. Bu stratejiler arasında:
- Düşük Ranglı Adaptasyon (LoRA): Eğitim maliyetini ve bellek kullanımını azaltmak için önceden eğitilmiş modele düşük ranglı adaptörler ekleyerek ince ayar yapar.
- Başlık Sırasıyla Rastgele: Modelin geri kalanını dondururken, rastgele başlatılmış bir çıktı başlığını eğitir.
- Başlık Sırasıyla Önceden Eğitilmiş: Modelin geri kalanını dondururken, önceden eğitilmiş bir çıktı başlığını eğitir.
- Tam: Modelin tüm parametrelerini uçtan uca ince ayar yapar.
Programlanabilir Biyolojiye Doğru
Nasıl ki dil modelleri akıl yürütme yeteneği kazandırmışken, protein modelleri de katlanma kabiliyeti kazanmıştır, CodonFM de RNA kodonları ile davranışları ve protein ifadesi arasındaki kuralları öğrenmektedir. Bu da RNA’yı sadece genetik bilginin pasif taşıyıcısı olmaktan çıkarıp, okunabilir ve optimize edilebilir bir dil haline dönüştürmektedir.
NVIDIA’nın Sanal Hücre girişimiyle bu yaşam dilini okuma ve yazma yeteneği, biyoloji üzerinde şekil verebilme imkânı sunarak, araştırmacıların ve geliştiricilerin biyolojiyi aktif bir şekilde biçimlendirmesine olanak tanımaktadır.
CodonFM ile Başlayın
CodonFM, diğer Clara açık modellerini güçlendiren temel altyapı üzerinde eğitilmiştir. Eğitim sürecinde NVIDIA cuDNN ve NVIDIA cuBLAS kitaplıkları üzerinden GPU’ya özgü hızlandırma kullanılmıştır. Girdi veri setleri, hızlı ve verimli veri akışı sağlamak için bellek haritalı dosyalara dönüştürülmüştür. NVIDIA NeMo Run, merkezi eğitim yapılandırma ve organizasyon çerçevesi olarak hizmet vermiştir.
Hazır mısınız? CodonFM ile başlayabilirsiniz:
- Tam kodu NVIDIA-Digital-Bio/CodonFM GitHub deposunda bulabilirsiniz.
- Model kontrol noktalarını Hugging Face ve NGC üzerinde görebilirsiniz.
- CodonFM hakkında daha fazla bilgi edinebilirsiniz.
- BioNeMo Framework tarifleri ile hızlandırılmış eğitim ve çıkarım için yerleşik tarifleri kullanabilirsiniz.
Teşekkürler
Bu yazıya katkıda bulunan ve destek veren tüm kişilere teşekkür ederiz: Sajad Darabi, Fan Cao, Mohsen Naghipourfar, Hani Goodarzi, Sara Rabhi, Yingfei Wang, William Greenleaf, Yang Zhang, Cory Ye, Jonathan Mitchell, Timur Rvachov, T.J. Chen, Daniel Burkhardt ve Neha Tadimeti.
