Hücre içinde proteinlerin nerede bulunduğunu tahmin etmek, biyoloji ve ilaç keşfi açısından oldukça kritik bir öneme sahiptir. Bu süreç subselüler yerleşim olarak adlandırılmaktadır. Bir proteinin bulunduğu yer, onun işleviyle yakından ilişkilidir. Bir proteinin çekirdek, sitoplazma veya hücre zarında olduğunu bilmek, hücresel süreçler hakkında yeni bilgiler edinmemizi ve potansiyel tedavi hedeflerini açmamızı sağlar.
Bu yazıda, araştırmacıların hassas verileri farklı kurumlar arasında taşımadan, protein özelliklerini, örneğin subselüler yerleşimini tahmin etmek için yapay zeka modellerini nasıl işbirliği içinde eğitebileceklerini açıklayacağız. Bu işlem için NVIDIA FLARE ve NVIDIA BioNeMo Framework kullanılmaktadır.
Subselüler Yerleşim İçin Model Nasıl İyileştirilir?
Yeni bir NVIDIA FLARE eğitimi, proteinleri subselüler yerleşimlerine göre sınıflandırmak için ESM-2nv modelini nasıl iyileştireceğimizi gösteriyor. ESM-2nv modeli, protein dizilerinin gömülü öğrenimlerinden faydalanarak, Hafif Dikkat ile Protein Yerleşimini Hayat Dilinden Tahmin Etme isimli makalede tanıtılan veri setlerini kullanmaktadır.
Subselüler yerleşim tahmini üzerinde odaklanıyoruz; bu tahminler, her biri 10 yerleşim sınıfından birini (örneğin: Çekirdek, Hücre Zarları, vb.) içeren eğitim/valide bölümü ile birlikte dizilim içeren FASTA dosyaları formatında düzenlenmiştir.

FASTA formatında bir veri örneği şöyle görünmektedir:
>Sequence1 TARGET=Cell_membrane SET=train VALIDATION=False
MMKTLSSGNCTLNVPAKNSYRMVVLGASRVGKSSIVSRFLNGRFEDQYTPTIEDFHRKVYNIHGDMYQLDILDTSGNHPFPAMRRLSILT
GDVFILVFSLDSRESFDEVKRLQKQILEVKSCLKNKTKEAAELPMVICGNKNDHSELCRQVPAMEAELLVSGDENCAYFEVSAKKNTNVNE
MFYVLFSMAKLPHEMSPALHHKISVQYGDAFHPRPFCMRRTKVAGAYGMVSPFARRPSVNSDLKYIKAKVLREGQARERDKCSIQ
Burada:
- TARGET = subselüler yerleşim sınıfı
- SET = eğitim ve test verisi
- VALIDATION = doğrulama dizilerini işaretler
Bu veri seti, 10 yerleşim sınıfını kapsamakta ve bu da onu mükemmel bir gerçek dünya sınıflandırma zorluğu haline getirmektedir.
BioNeMo Protein Dil Modelleri ile Federated Learning Nasıl Kullanılır?
Bu örneği çalıştırmak oldukça basit. BioNeMo Framework v2.5’i Docker üzerinde çalıştırarak, doğrudan bir Jupyter Lab ortamı açabilir ve tarayıcınızda Federated Protein Property Prediction with BioNeMo eğitim defterini çalıştırabilirsiniz.
BioNeMo çerçevesinin üzerine, veri gizliliğini koruyarak işbirliği sağlayacak şekilde federated eğitimi ekleyen NVIDIA FLARE kullanılıyor. Birçok kurumun veri setlerini bir araya getirmek yerine, her katılımcı yerel olarak eğitiyor ve yalnızca model güncellemelerini paylaşıyor. FedAvg ile, bu güncellemeler merkezi olarak toplanarak, ortak bir küresel model oluşturuluyor.
Eğitim ve Görselleştirme
Bu gösterim için ekip, BioNeMo’da ön eğitim görmüş 650 milyon parametreli ESM-2nv modelini iyileştirdi. Bu daha büyük model, tahmin doğruluğu ve hesaplama verimliliği arasında mükemmel bir denge sunarak, federated eğitim senaryoları için uygun hale getiriyor.
İş akışındaki ana adımlar şunlardır:
- Veri bölme: Heterojen örnekleme, gerçek dünya kurumları arasında beklenen çeşitliliği taklit eder. Bu, federated kurulumun pratik uygulama koşullarını daha iyi yansıtmasını sağlar.
- Federated averaging (FedAvg): Yerel istemci güncellemeleri, ham protein dizisi verilerini ifşa etmeden, ortak bir küresel modele dönüştürülür.
- TensorBoard ile görselleştirme: Araştırmacılar, hem yerel hem de federated eğitim çalışmaları sırasında gerçek zamanlı olarak izleme yapabilir. Sürekli sunucu tarafı metrikleri, her iletişim turuyla birlikte küresel modelin nasıl evrildiğine dair içgörüler sunar.

Sonuçlar
Ekip, heterojen veri koşulları altında (alpha = 1.0) her sitede yerel eğitim ile federated eğitimi (FedAvg) karşılaştırdı.
İstemci | Örnek Sayısı | Yerel Doğruluk | FedAvg Doğruluğu |
Site-1 | 1,844 | 78.2 | 81.8 |
Site-2 | 2,921 | 78.9 | 81.3 |
Site-3 | 2,151 | 79.2 | 82.1 |
Ortalama | — | 78.8 | 81.7 |
Bu sonuçlar, federated öğrenmenin kurumlar arası bilgi paylaşımını nasıl güçlendirdiğini ve her bir sitenin kendi başına ulaşabileceğinden daha güçlü bir model inşa ettiğini ortaya koymaktadır.

BioNeMo ve FLARE Kullanmanın Faydaları
BioNeMo ve FLARE kullanmanın avantajları, hücre içinde proteinlerin nerede yerleştiğini tahmin etmenin ötesine geçiyor. Bu yaklaşım, toplulukların birlikte bilim için yapay zeka oluşturmalarına olanak tanımaktadır. BioNeMo ve FLARE ile:
- Federated öğrenme, protein özellik tahminlerini güçlendirir: Ham veri paylaşmadan kolektif zekayı bir araya getirin.
- İşbirliği herkes için faydalıdır: Her kurum, verilerini yerel tutarak daha güçlü bir modele katkıda bulunur.
- BioNeMo Framework, keşfi hızlandırır: Biyolojik dizilim analizi için son teknoloji araçlara erişim sağlayın.
Federated Protein Tahminine Başlayın
NVIDIA BioNeMo ve NVIDIA FLARE ile federated protein özellik tahmini, güçlü yeni bir paradigmanın parçasıdır. Hayatın dili olan protein dizilerini federated yapay zeka iş akışlarıyla birleştirmek, ilaç geliştirme, sağlık hizmetleri ve biyoteknoloji gibi alanlarda keşifleri hızlandırırken veri gizliliğine de saygı göstermektedir.
Yaşam bilimleri yapay zekasının geleceği yalnızca izolasyon içinde değil, işbirliği ile şekillenmektedir. FLARE ve BioNeMo ile bu gelecek artık burada. Daha fazla bilgi için NVIDIA/NVFlare GitHub deposunu ziyaret edin ve BioNeMo ile Federated Protein Özellik Tahmini örneğine göz atın veya daha ileri örnekleri inceleyin.