“Protein Özelliklerini Tahmin Etmek için Federatif AI Modellerinin Eğitimi”

Hücre içinde proteinlerin nerede bulunduğunu tahmin etmek, biyoloji ve ilaç keşfi açısından oldukça kritik bir öneme sahiptir. Bu süreç subselüler yerleşim olarak adlandırılmaktadır. Bir proteinin bulunduğu yer, onun işleviyle yakından ilişkilidir. Bir proteinin çekirdek, sitoplazma veya hücre zarında olduğunu bilmek, hücresel süreçler hakkında yeni bilgiler edinmemizi ve potansiyel tedavi hedeflerini açmamızı sağlar.

Bu yazıda, araştırmacıların hassas verileri farklı kurumlar arasında taşımadan, protein özelliklerini, örneğin subselüler yerleşimini tahmin etmek için yapay zeka modellerini nasıl işbirliği içinde eğitebileceklerini açıklayacağız. Bu işlem için NVIDIA FLARE ve NVIDIA BioNeMo Framework kullanılmaktadır.

Subselüler Yerleşim İçin Model Nasıl İyileştirilir?

Yeni bir NVIDIA FLARE eğitimi, proteinleri subselüler yerleşimlerine göre sınıflandırmak için ESM-2nv modelini nasıl iyileştireceğimizi gösteriyor. ESM-2nv modeli, protein dizilerinin gömülü öğrenimlerinden faydalanarak, Hafif Dikkat ile Protein Yerleşimini Hayat Dilinden Tahmin Etme isimli makalede tanıtılan veri setlerini kullanmaktadır.

Subselüler yerleşim tahmini üzerinde odaklanıyoruz; bu tahminler, her biri 10 yerleşim sınıfından birini (örneğin: Çekirdek, Hücre Zarları, vb.) içeren eğitim/valide bölümü ile birlikte dizilim içeren FASTA dosyaları formatında düzenlenmiştir.

Cross-section of an animal cell with various components labelled, including cell membrane, ribosome, mitochondrion, and so on. — *Şekil 1. Protein özellik tahmini için hedeflenen çeşitli zara bağlı organellerin gösterildiği bir hayvan hücresinin kesiti.*

FASTA formatında bir veri örneği şöyle görünmektedir:

>Sequence1 TARGET=Cell_membrane SET=train VALIDATION=False 
MMKTLSSGNCTLNVPAKNSYRMVVLGASRVGKSSIVSRFLNGRFEDQYTPTIEDFHRKVYNIHGDMYQLDILDTSGNHPFPAMRRLSILT
GDVFILVFSLDSRESFDEVKRLQKQILEVKSCLKNKTKEAAELPMVICGNKNDHSELCRQVPAMEAELLVSGDENCAYFEVSAKKNTNVNE
MFYVLFSMAKLPHEMSPALHHKISVQYGDAFHPRPFCMRRTKVAGAYGMVSPFARRPSVNSDLKYIKAKVLREGQARERDKCSIQ

Burada:

TARGET = subselüler yerleşim sınıfı
SET = eğitim ve test verisi
VALIDATION = doğrulama dizilerini işaretler

Bu veri seti, 10 yerleşim sınıfını kapsamakta ve bu da onu mükemmel bir gerçek dünya sınıflandırma zorluğu haline getirmektedir.

BioNeMo Protein Dil Modelleri ile Federated Learning Nasıl Kullanılır?

Bu örneği çalıştırmak oldukça basit. BioNeMo Framework v2.5’i Docker üzerinde çalıştırarak, doğrudan bir Jupyter Lab ortamı açabilir ve tarayıcınızda Federated Protein Property Prediction with BioNeMo eğitim defterini çalıştırabilirsiniz.

BioNeMo çerçevesinin üzerine, veri gizliliğini koruyarak işbirliği sağlayacak şekilde federated eğitimi ekleyen NVIDIA FLARE kullanılıyor. Birçok kurumun veri setlerini bir araya getirmek yerine, her katılımcı yerel olarak eğitiyor ve yalnızca model güncellemelerini paylaşıyor. FedAvg ile, bu güncellemeler merkezi olarak toplanarak, ortak bir küresel model oluşturuluyor.

Eğitim ve Görselleştirme

Bu gösterim için ekip, BioNeMo’da ön eğitim görmüş 650 milyon parametreli ESM-2nv modelini iyileştirdi. Bu daha büyük model, tahmin doğruluğu ve hesaplama verimliliği arasında mükemmel bir denge sunarak, federated eğitim senaryoları için uygun hale getiriyor.

İş akışındaki ana adımlar şunlardır:

Veri bölme: Heterojen örnekleme, gerçek dünya kurumları arasında beklenen çeşitliliği taklit eder. Bu, federated kurulumun pratik uygulama koşullarını daha iyi yansıtmasını sağlar.
Federated averaging (FedAvg): Yerel istemci güncellemeleri, ham protein dizisi verilerini ifşa etmeden, ortak bir küresel modele dönüştürülür.
TensorBoard ile görselleştirme: Araştırmacılar, hem yerel hem de federated eğitim çalışmaları sırasında gerçek zamanlı olarak izleme yapabilir. Sürekli sunucu tarafı metrikleri, her iletişim turuyla birlikte küresel modelin nasıl evrildiğine dair içgörüler sunar.

Bar chart showing heterogeneous class distribution across three client sites. — *Şekil 2. Heterojen örnekleme, dizileri siteler arasında dengesiz bir şekilde dağıtarak çoklu kurum veri setlerinde görülen doğal dengesizliği simüle eder.*

Sonuçlar

Ekip, heterojen veri koşulları altında (alpha = 1.0) her sitede yerel eğitim ile federated eğitimi (FedAvg) karşılaştırdı.

İstemci	Örnek Sayısı	Yerel Doğruluk	FedAvg Doğruluğu
Site-1	1,844	78.2	81.8
Site-2	2,921	78.9	81.3
Site-3	2,151	79.2	82.1
Ortalama	—	78.8	81.7

Tablo 1. Federated eğitim, tüm sitelerde yerel modellere göre sürekli olarak daha iyi sonuçlar alarak ortalama doğruluğu %78.8’den %81.7’ye çıkarmaktadır.

Bu sonuçlar, federated öğrenmenin kurumlar arası bilgi paylaşımını nasıl güçlendirdiğini ve her bir sitenin kendi başına ulaşabileceğinden daha güçlü bir model inşa ettiğini ortaya koymaktadır.

Graph showing the convergence curves of Local versus Federated in terms of validation accuracy. — *Şekil 3. Federated eğitim (FedAvg) her sitede yerel modellere göre daha yüksek doğruluk sunarak işbirlikçi öğrenmenin faydasını göstermektedir.*

BioNeMo ve FLARE Kullanmanın Faydaları

BioNeMo ve FLARE kullanmanın avantajları, hücre içinde proteinlerin nerede yerleştiğini tahmin etmenin ötesine geçiyor. Bu yaklaşım, toplulukların birlikte bilim için yapay zeka oluşturmalarına olanak tanımaktadır. BioNeMo ve FLARE ile:

Federated öğrenme, protein özellik tahminlerini güçlendirir: Ham veri paylaşmadan kolektif zekayı bir araya getirin.
İşbirliği herkes için faydalıdır: Her kurum, verilerini yerel tutarak daha güçlü bir modele katkıda bulunur.
BioNeMo Framework, keşfi hızlandırır: Biyolojik dizilim analizi için son teknoloji araçlara erişim sağlayın.

Federated Protein Tahminine Başlayın

NVIDIA BioNeMo ve NVIDIA FLARE ile federated protein özellik tahmini, güçlü yeni bir paradigmanın parçasıdır. Hayatın dili olan protein dizilerini federated yapay zeka iş akışlarıyla birleştirmek, ilaç geliştirme, sağlık hizmetleri ve biyoteknoloji gibi alanlarda keşifleri hızlandırırken veri gizliliğine de saygı göstermektedir.

Yaşam bilimleri yapay zekasının geleceği yalnızca izolasyon içinde değil, işbirliği ile şekillenmektedir. FLARE ve BioNeMo ile bu gelecek artık burada. Daha fazla bilgi için NVIDIA/NVFlare GitHub deposunu ziyaret edin ve BioNeMo ile Federated Protein Özellik Tahmini örneğine göz atın veya daha ileri örnekleri inceleyin.

SON DAKİKA

“Protein Özelliklerini Tahmin Etmek için Federatif AI Modellerinin Eğitimi”

Subselüler Yerleşim İçin Model Nasıl İyileştirilir?