Medikal verilerin artan hacmi ve karmaşıklığı ile erken hastalık teşhisi ve sağlık hizmetleri verimliliği ihtiyacı, medikal yapay zeka alanında eşsiz ilerlemeleri tetikliyor. Bu alandaki en göz alıcı yeniliklerden biri, metin, görüntü ve videoları aynı anda işleyebilen multimodal yapay zeka modelleridir. Bu modeller, hasta verilerini geleneksel tek modlu sistemlerden çok daha kapsamlı bir şekilde anlamamıza olanak tanır.
ajanik AI (otonom, iş akışına dayalı akıl yürütme) ile görüntülemenin ötesine geçerek bir multimodal ekosistemin nasıl geliştirildiğini açıklamaktadır. Bu ekosistem, CT ve MRI’dan EHR’ler ve klinik dokümana kadar çeşitli sağlık verilerini birleştirerek radyoloji, cerrahi ve patoloji alanlarında araştırma geliştirme ve yenilikleri tetikliyor.
MONAI Multimodal: Sağlık verisi “siloslarını” birleştirmek
Tıbbi veriler daha çeşitli ve karmaşık hale geldikçe, farklı veri kaynaklarını birleştiren kapsamlı çözümlere olan ihtiyaç hiç bu kadar büyük olmamıştı. MONAI Multimodal, geleneksel görüntüleme analizinin ötesine geçerek entegre bir araştırma ekosistemi oluşturma çabasıdır. CT, MRI, röntgen, ultrason, EHR’ler, klinik dokümantasyon, DICOM standartları, video akışları ve büyük ölçekli görüntüleme gibi çeşitli sağlık verilerini birleştirerek araştırmacılara ve geliştiricilere multimodal analiz imkanı sunar.
Anahtar geliştirmeler şunları içerir:
- Ajanik AI Çerçevesi: Görüntüler ve metinler arasında çok aşamalı akıl yürütme için otonom ajanlar kullanır.
- Özelleştirilmiş LLM’ler ve VLM’ler: Tıbbi uygulamalar için tasarlanmış, çapraz modlu veri entegrasyonunu destekleyen özel modellerdir.
- Veri IO bileşenleri: Aşağıdaki çeşitli veri IO okuyucularını entegre eder:
- DICOM, tıbbi görüntüleme için (CT ve MRI örneğin)
- EHR, yapılandırılmış ve yapılandırılmamış klinik veri için
- Video, cerrahi kayıtlar ve dinamik görüntüleme için
- WSI, büyük, yüksek çözünürlüklü patoloji görüntüleri için
- Metin, klinik notlar ve diğer yazılı veriler için
- Görüntüler (PNG, JPEG, BMP), patoloji slaytları veya statik görüntüler için
MONAI Multimodal platformu, görüntüler ve metinler arasında çok aşamalı akıl yürütme sağlamak için geliştirilmiş otonom ajanlar kullanan ileri düzey bir ajanik AI sunar. Ayrıca, çapraz modlu veri entegrasyonunu kolaylaştıran tıbbi uygulamalar için özelleştirilmiş LLM’ler ve VLM’ler içerir. Bu işbirlikçi ekosistem, NVIDIA, önde gelen araştırma kuruluşları, sağlık organizasyonları ve akademik merkezlerle gerçekleştirilmektedir. Bu birleşik yaklaşım, araştırmaları hızlandırarak, medikal AI inovasyonu için tutarlı ve tekrarlanabilir bir çerçeve sunar.
“Farklı veri akışlarını entegre ederek, yalnızca teşhis doğruluğunu artırmakla kalmıyor, aynı zamanda kliniklerin hasta verileriyle nasıl etkileşimde bulunduğunu temel olarak dönüştürüyoruz,” diyor Dr. Tim Deyer, radyolog ve RadImageNet’in yönetici ortağı. “Bu yenilik, sağlık hizmetlerinde daha hızlı ve daha güvenilir karar verme yolları açıyor.”
MONAI Multimodal Bilimsel Araştırma Platformuna Temel Yapılar
Daha geniş bir girişimin parçası olarak, MONAI Multimodal Çerçevesi, çapraz modlu akıl yürütmeyi ve entegrasyonu destekleyen birkaç temel bileşen içermektedir.
Ajanik Çerçeve
Ajanik çerçeve, görüntü ve metin verilerini insan benzeri mantık ile entegre ederek çok aşamalı akıl yürütmeyi sağlayan multimodal AI ajanlarını dağıtmak ve koordine etmek için bir referans mimarisidir. Özel iş akışlarını desteklemek için özelleştirilebilir ajan tabanlı işlem sağlarken, görsel ve dil bileşenleri arasında entegrasyon karmaşıklığını azaltır.
MONAI ajanik mimarisi, modüler bir tasarım ile medikal AI için çapraz modlu akıl yürütmeyi sağlar. Özel ajanları koordine eden merkezi bir orkestra motoru içerir (örneğin, Radyoloji Ajan Çerçevesi ve Cerrahi Ajan Çerçevesi), tutarlı dağıtım için arayüzler ve standartlaştırılmış çıktılar sunan bir akıl yürütme ve karar katmanı içerir.
Temel Modeller ve Topluluk Katkıları
MONAI Multimodal platformu, NVIDIA’nın önderliğindeki çerçevelerle topluluk ortağı yeniliklerini bir araya getiren bir dizi en son teknoloji modelle güçlendirilmiştir.
NVIDIA liderliğindeki çerçeveler
NVIDIA liderliğindeki çerçeveler şunları içerir:
Radyoloji Ajan Çerçevesi: Tıbbi görüntüler ile metin verilerini bir araya getirerek radyologların teşhis ve yorumlama süreçlerine yardımcı olan radyoloji odaklı bir ajanik çerçevedir.
Önemli özellikler:
- 3D CT/MR görüntülerini hasta EHR verileriyle entegre eder.
- Kapsamlı analiz için geniş dil modelleri (LLM’ler) ve görsel-dil modelleri (VLM’ler) kullanır.
- İsteğe bağlı olarak uzman modellerine erişim sağlar (VISTA-3D, MONAI BraTS, TorchXRayVision gibi).
- Meta Llama 3 ile inşa edilmiştir.
- Ayrıntılı çıktılar için birden fazla veri akışını işler.
- Problemleri yönetilebilir parçalara ayırarak karmaşık akıl yürütme görevlerini yerine getirir.

Cerrahi Ajan Çerçevesi: Cerrahi uygulamalar için tasarlanmış VLM ve geri çağırma artırmalı üretim (RAG) karışımıdır. Cerrahi iş akışları için uçtan uca destek sağlar.
Önemli özellikler:
- Whisper ile gerçek zamanlı ses transkripsiyonu sağlar.
- Sorgu yönlendirme, Soru-Cevap, belgeleme, etiketleme ve raporlama gibi özel ajanlar içerir.
- Görüntü analizi için bilgisayarla görme entegrasyonu sağlar.
- İsteğe bağlı ses yanıt yetenekleri sunar.
- Hasta özel pre-op verileri, klinik tercihleri ve tıbbi cihaz bilgilerini birleştirir.
- İçi operasyon verilerini gerçek zamanlı olarak işler.
- Tüm cerrahi aşamalarında – eğitim, planlama, rehberlik ve analiz – dijital asistan olarak işlev görür.

Topluluk liderliğindeki partner modeller
RadViLLA: Rad Image Net, Mount Sinai Tıp Okulu’ndaki Biyomedikal Mühendislik ve Görüntüleme Enstitüsü ve NVIDIA tarafından geliştirilen RadViLLA, radyoloji için 3D VLM’dir ve göğüs, karın ve pelvis ile ilgili klinik sorgulara yanıt verme konusunda mükemmeldir. RadViLLA, 75.000 3D CT taramasında ve 1 milyondan fazla görsel soru-cevap eşleşmesinde eğitilmiştir.
Farklı anatomik bölgelerde sıkça imajlanan alanlara odaklanan RadViLLA, 3D CT taramaları ile metinsel verileri birleştiren yeni bir iki aşamalı eğitim stratejisi kullanmaktadır. RadViLLA, klinik sorgulara otonom olarak yanıt vererek F1 puanı ve dengeli doğrulukta çoklu veri setleri üzerinden üstün performans sergilemektedir.
CT-CHAT: Zürih Üniversitesi tarafından geliştirilen CT-CHAT, 3D göğüs CT görüntülerinin yorumlama ve teşhis yeteneklerini artırmak için tasarlanmış son teknoloji bir görsel-dil temel sohbet modelidir. CT-CLIP çerçevesi ve CT-RATE dan uyarlanan bir Görsel Soru-Cevap veri setini kullanmaktadır.
2.7 milyon soru-cevap çiftinin üzerinde eğitilen model, 3D mekansal bilgiyi kullanarak 2D tabanlı modellere göre üstünlük sağlamaktadır. CT-CHAT, CT-CLIP’in görsel kodlayıcı ile önceden eğitilmiş geniş dil modelini birleştirerek yorumlama süresini kısaltmakta ve doğru teşhis içgörüleri sunmaktadır, bu da onu tıbbi görüntüleme için güçlü bir araç haline getirmektedir.
Hugging Face Entegrasyonu
MONAI Multimodal ile Hugging Face araştırma altyapısını bağlayan standartlaştırılmış boru hattı desteği:
- Araştırma amaçlı model paylaşımı
- Yeni modellerin entegrasyonu
- Araştırma ekosisteminde daha geniş katılım
Topluluk Entegrasyonu
Model paylaşımı, doğrulama ve ortak geliştirme için altyapı:
- Standartlaştırılmış model kartları ve ajan iş akışları
- Bilgi alışverişi ve en iyi uygulamaların paylaşımı
- İşbirlikçi araştırmalar için temel oluşturma

MONAI Multimodal ile Medikal AI’nin Geleceğini İnşa Et
MONAI Multimodal, açık kaynaklı medikal görüntüleme AI için lider platform olan MONAI’nin bir sonraki evrimi olarak öne çıkıyor. Bu temelin üzerine inşa edilen MONAI Multimodal, görüntülemenin ötesine geçerek sağlık verilerinin çeşitli türlerini entegre ediyor; radyoloji ve patolojiden klinik notlara ve EHR’lere kadar.
NVIDIA liderliğindeki çerçeveler ve ortak katkılar ile MONAI Multimodal, özel ajanik mimariler aracılığıyla ileri düzey akıl yürütme yetenekleri sunmaktadır. Veri “siloslarını” ortadan kaldırarak ve kesintisiz çapraz modlu analizi sağlayarak, bu girişim; sağlık hizmetleri alanındaki kritik zorluklara yanıt vermekte, araştırma yeniliklerini hızlandırmakta ve klinikçe uygulanabilir çözümler üretmektedir.
Farklı veri kaynaklarını birleştirerek ve en son teknoloji modellerden faydalanarak MONAI Multimodal, sağlık hizmetlerini dönüştürmekte; klinisyenleri, araştırmacıları ve yenilikçileri medikal görüntüleme ve teşhis doğruluğunda çığır açan sonuçlar elde etmek için güçlendirmektedir.
Birlikte, sadece bir yazılım inşa etmiyoruz—bir ekosistem yaratıyoruz; araştırmacılar, klinisyenler ve dünya genelinde hasta yararına tıbbi AI yeniliğinin geliştiği bir alan. MONAI ile ilgili daha fazla bilgiye ulaşın.
NVIDIA GTC 2025‘te bize katılın ve bu ilgili oturumları kontrol edin: