SON DAKİKA

Nvdia

NVIDIA NIM ile Bilimsel Literatürde Biyolojik Bulguları Derlemek

Bilimsel makaleler oldukça heterojendir; aynı varlıklar için farklı terminolojiler kullanabilir, biyolojik olguları incelemek için çeşitli metodolojiler benimseyebilir ve bulgularını farklı bağlamlar içinde sunabilir. Bu makalelerden anlamlı çıkarımlar elde edebilmek, biyolojiye derin bir anlayış, metodolojilerin eleştirel değerlendirilmesi ve sağlam bulguları önemsiz olanlardan ayırabilme yeteneği gerektirir. 

Bilim insanlarının bağlamı dikkatlice yorumlaması, deneysel kanıtların güvenilirliğini değerlendirmesi ve çalışmalardaki potansiyel önyargıları veya sınırlamaları tanımlaması gerekmektedir. Hastalık modelleme gibi kritik karar verme süreçlerini desteklemek için yüksek hassasiyet gereksinimleri söz konusu olduğundan, biyolojik bulguların yalnızca yüksek kaliteli bilgileri içermesi zorunludur.

Büyük dil modelleri (LLM), geri alma artırılmış üretim (RAG) sürecine entegre edildiğinde, biyolojik bulguların derlenmesini otomatikleştirme ve hızlandırma konusunda devrim niteliğinde bir fırsat sunmaktadır. Bilimsel makalelerden anlamlı içgörüleri çıkarma sürecini optimize ederek, LLM’ler bu işlemin ölçeklenebilirliğini önemli ölçüde artırmaktadır. Bu dil modelleri, herhangi bir bireyin manuel olarak inceleyebileceğinden çok daha fazla makaleyi tarayabilir ve daha fazla ilgili bulgular keşfedebilir.

CytoReason ekibi, CytoReason şirketinin, NVIDIA Inception programının bir üyesi olarak, biyofarmasötiklerin karar verme süreçlerini desteklemek için büyük miktarda moleküler ve metinsel veriyi madencilik yaparak hesaplamalı hastalık modelleri geliştirmektedir. Bu modeller, etki mekanizmalarını (MOA’lar), gen regülasyonunu, hasta tepkilerini ve daha fazlasını yakalayarak, insan hastalıklarını dokusal, hücresel ve gen seviyelerinde simüle edebilmektedir.

Bu da araştırmacılara hastalık ilerleyişini tahmin etme, tedavi tepkilerini değerlendirme, biyolojik hedefleri önceliklendirme ve ilgili hasta alt popülasyonlarını tanımlama olanağı sunmaktadır. CytoReason hesaplamalı hastalık modellerinin bir analizi, literatürdeki biyolojik bulgulara dayanmaktadır. Artan sayıda bilimsel makaleyi manuel olarak incelemek, biyoloji konusunda karmaşık bir anlayış ve önemli ölçüde zaman gerektirmektedir.

Bu yazıda, CytoReason’un literatürden biyolojik içgörüleri hızlandırarak toplama yöntemini tanıtacağız.

NVIDIA NIM ile Güçlendirilmiş RAG Süreci

CytoReason ekibi, NVIDIA NIM mikro hizmetlerini kullanarak, CytoReason’un hesaplamalı hastalık modellerine entegre edilmiş biyolojik bulguların madenciliğini ölçeklendiren bir RAG süreci geliştirmiştir. Şekil 1, akışı göstermektedir.

Flow chart describing RAG pipeline for mining biological findings.
Şekil 1. CytoReason’un RAG süreci için biyolojik beklentilerin çıkarımı

Sürecin çıktısı, literatürden çıkarılan biyolojik kanıtların bir listesidir. Bu kanıtlar, varlık türleri ve koşullar arasında toplanarak, hastalık biyolojisi ile ilgili değerli içgörüler sunan kapsamlı bir özet sağlar. Şekil 2, ilial Crohn hastalığı hastalarında IL6 geninin artan ifadesini destekleyen bir çıktının örneğini göstermektedir.

NVIDIA LLM NIM mikro hizmetleri, Mistral 12B Instruct gibi araçlar sunarak, bu sürece kolaylık sağlamaktadır. NIM’i kullanarak, ekip yüksek verim elde etmiş, immünologların bu tür bir listeyi oluşturma süresini günlerden saatlere indirmiş ve daha yüksek kapsama ulaşmıştır.

Düzenli Girdi

RAG süreci, ekibin biyologlarının ihtiyaçlarını karşılayacak şekilde tasarlanmış bir düzenli girdi ile başlamaktadır. Bu girdi, dört temel parametre belirler: varlık türü (gen, yolak ya da hücre türü gibi), hastalık, doku ve koşullar. Örneğin, bir girdi, ilium dokusuyla ilişkili Crohn hastalığındaki gen ekspresyonundaki değişiklikleri destekleyen literatür kanıtlarını elde etmeyi içerebilir; sağlıklı ile enflamatuar koşulları karşılaştırarak.

İçerik Arama Motoru

Arama motoru, adı geçen girdilere dayalı olarak Google Scholar, PubMed veya başka bilimsel kütüphanelerden ilgili makaleleri almak için veri tabanlarını sorgulamakla sorumludur. Çeşitli bulgular elde etmek için arama motoru, aynı girdiden derlenen onlarca sorguyu işleme alır. Bu sorgular sonucunda elde edilen bilimsel makaleler, tek bir birleşik set haline getirilir ve her makale, başlık, yazarlar, yayın tarihi, özet, Google snippet, dergi veya kaynak ve DOI/URL gibi ayrıntılı meta verilere sahip olarak depolanır.

Biyolojik Güvenlik İklimleri

Makalelerin ve bağlantılı meta verilerin toplandığı aşamadan sonra, Mistral 12B Instruct NIM kullanılarak, toplananlar yüksek spesifik ve ilgili bir makale setine dönüştürülmektedir. Bu aşama, aşağıdaki üç kriterden oluşan bir istemle yönlendirilmektedir:

  • İnsan örneği bazlı çalışmalar: Sadece hayvan modelleri veya in vitro çalışmalara dayanan makalelerin dışlanması.
  • Hastalık ve doku ile ilgili geçerlilik: Makalelerin belirli hastalık ve doku ile ilgilendiğinden emin olunması. Örneğin, bir makalede bağırsakta farklı yerlerdeki birden fazla İBD durumuna ilişkin veriler bulunabilir. Bu adım, makalenin kapsamına giren belirli durum ve dokuları korur.
  • Kıyas koşullarının varlığı: Anlamlı içgörüler elde edebilmek için karşılaştırmalı çalışmalar kritik öneme sahiptir, örneğin farklı gen ekspresyonunu belirlemek veya biyomarkerler keşfetmek gibi. ‘Hastalık karşısında sağlıklı’ veya ‘tedavi edilmiş karşısında tedavi edilmemiş’ gibi net bilgi sunmayan makaleler dışlanır, çünkü analitik hedeflerle daha az uyum sağlamaktadır.

Ayrıca, istem; talimatlar, küçük örnekler, çözüm için rehber adımlar (düşünce zinciri), sorular ve yüksek güvenilirliğe yönelik gereksinimler gibi unsurlar içermektedir.

Biyolojik Kanıt Çıkarma

Bu aşamada, kalan her makalenin bilimsel içeriği, parça parça işlenmektedir. Her parça için, hastalık, doku ve koşullarla ilgili varlıkların kanıtlarını çıkarmak üzere bir NVIDIA LLM NIM kullanılmaktadır. LLM’ye verilen istem, biyolojik güvenlik iklimleri aşamasındaki paralelde dikkatlice tasarlanmaktadır.

Çıkarılan bilgiler, etkin bir şekilde alt işleme ve analize kolaylık sağlayacak biçimde düzenli bir formatta (örneğin, JSON) organize edilmektedir. Nihai çıktı, kanıtları içeren ve makaleye bağlantılarla zenginleştirilmiş veriler içermektedir. Genler, iki koşul arasında ifade değişikliği (artmış, azalmış, değişmemiş veya bilinmiyor) temelinde sınıflandırılmaktadır. Şekil 2, ilial Crohn hastalığı hastalarında IL6 geninin artan ifadesini destekleyen literatür kanıtlarını sunmaktadır.

Tables describing gene characteristics and text outputs.
Şekil 2. CytoReason’un RAG süreci tarafından çıkarılan biyolojik beklentilere bir örnek.

Sonuçlar

Ekip, RAG sürecini ilial Crohn hastalığında gen ekspresyonuna odaklı bir benchmark ile değerlendirmiştir. Bu durumda, el ile yapılan bir derleme süreci, immünologlar tarafından günler alan bir zaman diliminde sağlıklı ve enflamatuar koşulları karşılaştırarak farklılaşmış toplamda 101 gen tespit edilmiştir.

RAG süreci, yalnızca birkaç dakika içinde 99 gen ile ilgili bilgiler çıkarabilmiş ve bu genlerden 70’i, el ile yapılan derlemede tespit edilenlerle örtüşmektedir. Kalan 29 gen ise yeni keşifler olmuş ve daha sonra bir uzman tarafından doğrulukları doğrulanmıştır. Süreç tarafından üretilen kanıtların %96’sında doğru sonuçlar alınmıştır.

Özellikle, sürecin, her birinde önemli sayıda kanıt cümlesi bulunan 14 temel gene ilişkin 13’ünü başarıyla tespit ettiğini belirtmek gerekir. Bu durum, kritik bilgileri yüksek doğrulukla çıkarma yeteneğini göstermektedir; zira temel genler, belirli bir hastalıkla güçlü bir şekilde ilişkilidir ve bilimsel literatürde sıkça tartışılmaktadır.

Özet

Literatürden biyolojik içgörüleri madencilik yapmak, geleneksel olarak günler süren ve derin biyoloji bilgisi gerektiren karmaşık bir süreçtir. NVIDIA NIM ve LLM teknolojisini kullanarak, CytoReason bu sürecin zamanını önemli ölçüde azaltmıştır; günlerden sadece birkaç saate indirilmiştir. Bu sonuçlar, bu içgörülerin doğruluğunun oldukça yüksek olduğunu ve insan bilim insanları tarafından belirlenenlerden daha büyük bir biyolojik varlık yelpazesini kapsadığını göstermektedir.

Başlamak için NVIDIA NIM‘i ziyaret edebilirsiniz.

Teşekkürler

Bu proje boyunca profesyonel, sabırlı ve misafirperver destekleri için NVIDIA’ya teşekkür etmek isteriz. Ayrıca, bu projeye zaman ve uzmanlıklarını katkıda bulunan CytoReason’daki arkadaşlarımıza da minnettarız. Greg Minevich, Shimon Sheiba, Inbal Beracha, Dan Aizik, Jonatan Enk, Elina Starosvetsky, Zeev Benshachar, Yoav Schumacher ve Ronen Schuster gibi isimlere, tartışılan teknolojiyi tasarlama, uygulama ve gözden geçirmedeki kritik rollerinden dolayı özel teşekkürler. Onların görüşleri ve geri bildirimleri, geliştirme sürecini ve içeriği şekillendirmede büyük önem taşımıştır.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri