SON DAKİKA

Nvdia

“Sinir Bilim Araştırmalarını Geliştiren Görsel Soru-Cevap ve Çok Modlu Veri Erişimi”

Önde gelen sağlık kuruluşları, hayat kurtarıcı etkilere sahip uygulamalar oluşturmak için üretken yapay zeka‘ya yöneliyor. Bu kuruluşlar arasında Hindistan Teknoloji Enstitüsü Madras – IIT Madras Beyin Merkezi de bulunmaktadır. Merkezi, sinir bilimi araştırmalarını ilerletmek amacıyla insan beyinlerinin hücresel düzeydeki analizlerini çeşitli demografiler üzerinden yapabilmek için yapay zekayı kullanıyor.

Merkez, sinir bilimi topluluğuna beyin görüntüleme verilerini daha erişilebilir hale getirmek için görsel soru yanıtlama (VQA) modelleri ve büyük dil modelleri (LLM) kullanarak benzersiz bir bilgi keşif çerçevesi geliştirmiştir. Bu yazı, yapay zekanın sinir bilimi araştırmalarında nasıl sınırları zorlayabileceğine dair bir kavramsal kanıt sunmaktadır. VQA modelleri ile LLM’leri birleştiren çok modlu bir çerçeve oluşturarak, beyin görüntüleme verilerini daha anlaşılır hale getirmiştir. Bu yaklaşım, araştırmacılara beyin yapı ve işlevi hakkında yeni içgörüler keşfetme konusunda yardımcı olmakta, potansiyel hayat kurtarıcı keşiflerin zeminini hazırlamaktadır.

Sinir Bilimi Bilgi Keşif Çerçevesi

Bu bilgi keşif çerçevesi, araştırmacıların beyin görüntüleme verilerini en son sinir bilimi araştırmalarıyla bağlantı kurmasını sağlamak için sinir bilimi yayınlarını kullanır. Bu araç sayesinde, araştırmacılar belirli beyin bölgelerinde gördükleri durumların nedenleri gibi konularla ilgili yenilikleri keşfedebilir. Ayrıca her sinir bilimi araştırma alanının mevcut durumunu takip edebilir ve ilgili sorgulara yanıt bulabilirler.

Çerçevenin işlem hattı iki bölümden oluşmaktadır:

  1. Alım: En son sinir bilimi yayınlarını bilgi tabanına indeksler.
  2. Soru-Cevap: Kullanıcıların bilgi tabanıyla etkileşimde bulunmalarını sağlar. En son sinir bilimi yayınları, herkese açık bir veritabanından indirildikten sonra alım hattında işlenmektedir. Metinler, paragraf paragraf çıkarılır. Her paragraf için kendi alanına özgü, ince ayar yapılmış bir gömme modelinden yararlanarak gömme vektörleri oluşturulur. Bu gömme vektörleri daha sonra bir vektör veritabanına indekslenir.

Soru-Cevap bölümü, kullanıcıların hem metin hem de görüntü ile etkileşimde bulunmasını sağlayan çok modlu bir geri alma artırımlı üretim (RAG) hattıdır. Bu bölüm, kullanıcı girdilerini rahatsız edici veya alakasız içerikleri kaldırarak filtreler. İlgili paragraflar, anlamsal ve anahtar kelime benzerliğini birleştiren hibrit bir yaklaşım kullanılarak geri alınır. Sonrasında elde edilen paragraflar, bir yeniden sıralama modeli kullanılarak sıralanır. Nihayetinde, en iyi iki paragraf bir dil modeline aktarılır.

Görsel Soru Yanıtlama ve Çok Modlu Geri Alma

Kullanıcılar çerçeve ile beyin bölgelerinin görüntülerini kullanarak sorular sorabilirler. Çerçeve, Llave-Med gibi biyomedikal alanlar için en son VQA modellerini kullanarak yanıtlar sağlar. Ayrıca, bu çerçeve, belirli bir görüntü veya metne dayanarak benzer görüntüleri geri alma imkanı da sunmaktadır. Bu hattın hâlâ geliştirilme aşamasında olduğu ve daha fazla iyileştirme gerektirdiği belirtilmektedir.

Diagram of a Visual Question Answering (VQA) pipeline. A user query goes through NeMo Guardrails to a Vector Database and is processed by NeMo Retriever Embedding NIM. It retrieves similar content, re-ranked by NeMo Retriever Re-ranking NIM. Llava-Med provides a VQA answer, and the Mixtral-8x7B NVIDIA NIM generates the final response.
Şekil 1. VQA uçtan uca veri akış mimarisi

Araştırma Zorluklarını Aşmada NVIDIA Teknolojisi Kullanımı

NVIDIA teknoloji yelpazesi, bilgi tabanı çerçevesinin işlem hattının güç kaynağını oluşturur. Bu hattın dayanıklılığını ve performansını sağlamak için çeşitli NVIDIA araçları ve çerçeveleri kullanılmıştır. Hattın birçok bölümünü geliştirmek pek çok zorluk çıkarmış, ancak bu zorlukların her biri NVIDIA teknolojileri sayesinde başarıyla aşılmıştır.

Geri Alma Doğruluğunu Artırma

Çerçeve, sinir bilimi yayınları etrafında özel bir bilgi tabanını barındırmaktadır. Genel gömme modellerinin bu tür veriler için önceden eğitilmemesi nedeniyle, geri alma doğruluğunu artırmak için ince ayar yapılması gerekmektedir. Büyük ölçekli bir ince ayar veri setinin elle oluşturulması zorlu bir süreçtir ve sinir bilimi uzmanlarından girdi gerektirmektedir. Bu bağlamda, yüksek bir hızlı büyük dil modeli (LLM) yardımıyla sentetik bir veri seti üretilmiştir. Yüksek ölçekli veri seti geliştirmek için hızlı LLM çıkarımının sağlanması önemlidir; bu amaçla Mixtral 8x 7B NVIDIA NIM mikroservisi kullanılarak çıkarım hızı artırılmıştır. Göme modelinin ince ayarı, üst iki sonucun geri alma doğruluğunu %15,25 oranında artırmıştır.

Geri alma doğruluğu, NVIDIA NeMo Retriever ile daha da geliştirilmiştir. Bu sistem, bilgi geri alma için bir dizi NIM mikroservisi içerir. nv-rerank-qa-mistral-4b_v2 NIM mikroservisi, geri alınan paragrafları yeniden sıralamak için kullanılmış ve üst-2 geri alma doğruluğu %15,27 oranında artırılmıştır.

Kullanıcı Girdilerini Filtreleme

Yalnızca alakalı içeriğin kullanıcılara ulaşmasını sağlamak amacıyla, IIT Madras’taki araştırmacılar NVIDIA NeMo Guardrails kullanarak filtreleme gerçekleştirmişlerdir. Sinir bilimi alanına özel bir komut geliştiren Llama Guard 2 8B dil modeli kullanılarak bir kullanıcı girişi koruma alanı uygulanmıştır. Bu komut, bir halkın toksik sohbet veritabanı ile test edilmiştir. Sonuçlar şu şekildedir:

  • Varsayılan komut ile toksik içeriğin %38’i engellenmiştir.
  • Özelleştirilmiş komut ile toksik içeriğin %68’i engellenmiştir.
  • Özelleştirilmiş komut, sinir bilimi alanına özgü soruların %98’ini kabul etmiştir (özel bir veri setine göre).

Yanıt Üretimi için Çıkarım Hızı

Birden fazla kullanıcının aynı anda sisteme erişimi, makul bir sürede yanıt üretmeyi zorlaştırmıştır. Bu zorluk, LLama 3.1 70B NIM kullanılarak NVIDIA DGX A100 sunucularında çözülmüştür. LLama 3.1 70B NIM’in NVIDIA DGX A100 sunucusunda çalışması, özel olarak geliştirilmiş çıkarım koduna göre hızı 4 kat artırmıştır.

Çok Modlu PDF Çıkarma İçin NVIDIA AI Şablonu

Yeni başlatılan NVIDIA AI Şablonu, sinir bilimi yayınlarından doğru bilgi çıkarmak için kullanılabilir ve yukarıda belirtilen geri alma hattına bağlanma potansiyeline haizdir.

Bu iş akışı, kuruluşların araştırma bilgilerini saklamada yaygın bir form olan PDF belgelerinden içindeki bilgiyi doğru bir şekilde çıkarmasına yardımcı olmak üzere tasarlanmıştır. NVIDIA, metin, görüntü, grafikler, tablolar ve diğer diyagramları içeren PDF’leri analiz etmek için NeMo Retriever NIM mikroservislerini kullanan bir RAG modeli oluşturmuştur.

Workflow of the NVIDIA AI Blueprint for the multimodal PDF data extraction showing the retrieval pipeline (top) and ingestion pipeline (bottom).
Şekil 2. Çok modlu PDF veri çıkarım iş akışı, metin, grafikler, tablolar ve diyagramlar içindeki doğru bilgiyi çıkarmanıza olanak sağlar.

NVIDIA Şablonları, NVIDIA NIM ve ortak hizmetlerle oluşturulan örnek uygulamalarla birlikte referans kodları, özelleştirme kılavuzları ve dağıtım için bir Helm şeması sağlar. Bu şablonlar, bilimsel geliştiricilerin güçlü NVIDIA yapay zeka araçlarını kullanarak kendilerine ait uygulamalar geliştirmeleri adına hızlı bir başlangıç yapmalarını sağlar. Özelleştirilebilir ve genişletilebilirler; araştırma projelerinin ihtiyaçlarına uyacak şekilde karmaşık biyomedikal literatür inceleme görevlerine yönelik karmaşık iş akışları oluşturmalarına imkan verir.

Örnekler

Bu bölüm, görsel soru yanıtlama ve görüntüden görüntüye geri alma örneklerini sunarak, bu LLM tekniklerinin sinir bilimi araştırmalarında nasıl uygulanabileceğini göstermekte. İlk örnek, görsel soru yanıtlama ile giriş görüntülerinden belirli beyin bölgelerinin nasıl tanımlanabileceğini vurgular. Ek örnekler, mikroskopik doku kesitlerinin karşılaştırılmasıyla görüntüden görüntüye geri almanın nasıl gerçekleştirilebileceğini gösterir.

Görsel Soru Yanıtlama Örneği #1

Şekil 3, görsel soru yanıtlama örneği için giriş görüntüsüdür.

Soru: İfadede hangi beyin bölgesi vardır?
Cevap: Görüntüdeki beyin bölgesi cerebellumdur. Bu bölge, motor kontrol, koordinasyon ve denge açısından önemli bir rol oynamaktadır.

Image of a cerebellum.
Şekil 3. Görsel Soru Yanıtlama için cerebellum görüntüsü

Görsel Soru Yanıtlama Örneği #2

Şekil 4, görsel soru yanıtlama için ikinci örnek için giriş görüntüsüdür.

Soru: Bu görüntü frontal korteksi gösteriyor mu?
Cevap: Evet, görüntü frontal korteksi göstermektedir. Bu beyin bölgesi önemli bir rol oynamaktadır.

Image of the frontal cortex of the brain.
Şekil 4. Frontal korteks görüntüsü için görsel soru yanıtlama girdisi

Görüntüden Görüntüye Geri Alma Örneği #1

Şekil 5, yan yana iki mikroskopik doku kesitinin görüntüsüdür. Sol taraftaki görüntü, mor boya ile boyanmış bir giriş doku örneğini ve bazı yapısal detayları gösterirken, sağdaki görüntü benzer görünüme sahip geri alınmış dokuyu sergilemektedir.

Two side-by-side microscopic images of tissue sections are shown. One image features a purple-stained input sample with distinct structural details, while the other displays a retrieved tissue sample that closely resembles it in staining and shape, illustrating image-to-image retrieval.
Şekil 5. Doku kesiti giriş görüntüsü (sol) ve geri alınmış görüntü (sağ)

Görüntüden Görüntüye Geri Alma Örneği #2

Şekil 6, yan yana iki mikroskopik beyin doku kesitinin görüntüsüdür. Sol görüntü, açılı alanların belirgin olduğu mor renkte boyanmış bir örneği gösterirken, sağ görüntü benzer şekil ve doku desenlerine sahip geri alınmış örneği sergilemektedir.

Two adjacent images of brain tissue, one image depicts an input sample stained purple, showcasing varied light and dark textures alongside several elongated lighter streaks. The other image displays a retrieved tissue sample that mirrors the shape, staining, and texture patterns of the input sample, highlighting the process of image-to-image retrieval.
Şekil 6. Beyin dokusu örneği (sol) ve geri alınmış görüntü (sağ)

Özet

IIT Madras Beyin Merkezi ve NVIDIA’nın hızlandırılmış hesaplama ve yapay zeka teknolojileri — NVIDIA NeMo, NVIDIA NIM, NVIDIA AI Şablonları ve NVIDIA DGX—sinir bilimi araştırmalarını ilerletmekte ve beyin yapı ve işlevini anlama konusunda yeni yollar açmaktadır. Bu durum, potansiyel olarak hayat kurtarıcı keşiflerin yapılmasını hızlandırmaktadır.

NVIDIA NIM’i Sağlık için Keşfedin.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri