Moleküler tasarım sürecinde, ilaç, kimya veya malzeme uygulamaları için synthesizable (sentezlenebilir) moleküller oluşturmak önemli bir zorluktur. Moleküllerin sentez yollarını belirlemek, bu moleküllerin synthesizability (sentezlenebilirlik) değerlendirmesinde kritik bir adımdır. Bu yazıda, NVIDIA tarafından geliştirilen ReaSyn isimli bir generatif model tanıtılmaktadır. ReaSyn, moleküler sentez yollarını tahmin etme yeteneğine sahiptir ve mevcut yöntemlerdeki sınırlamaları aşmayı hedeflemektedir.
Kimyada Yalnızca Düşünce Zinciri Yaklaşımının Önemi
Büyük dil modelleri (LLM’ler), sanal asistanlardan karmaşık problem çözmeye kadar birçok uygulamayı besleyen temel teknolojiler haline gelmiştir. Modern LLM’ler, karmaşık sorunları çözme yeteneğini, belirli bir sonuca ulaşmak için gereken adım adım düşünme zinciri (CoT) aracılığıyla kazanmışlardır. ReaSyn, kimya alanında benzer bir zorluğa karşı etkili bir çözüm sunmaktadır. Kimyasal sentez yolu tahmininde, bir yol, bir dizi ara sentez adımını içerir. Bir molekül, ne kadar umut verici olursa olsun, yalnızca sentezlenebilir olduğunda değerlidir.
ReaSyn, moleküler sentez yollarını tahmin etme yeteneğini artırma amacıyla dikkat çekici bir tasarım kullanmaktadır. Bu tasarım, CoT yaklaşımına ilham alarak oluşturulmuş reaksiyon zinciri (CoR) notasyonunu içermektedir. Bu notasyon, her bir adımda reaktantları, reaksiyon kurallarını ve sonuçta oluşan ürünü içerecek şekilde sentez yolunu doğrusal bir dizi olarak temsil eder. Böylece bu model, her adımda ara ürünleri tahmin edebilir ve bu, modeli daha zengin bir öğrenme sürecine yönlendirir.
ReaSyn: Sentez Yollarını CoR Olarak Ele Alma
Sentez yolu, basit moleküllerin, yani yapı taşlarının (BB), kimyasal reaksiyonlar (RXN) aracılığıyla bir araya gelerek ara ürünler (INT) oluşturmalarıyla ilerleyen bir ağaç yapısı izler. Bu süreç çok aşamalıdır ve her reaksiyon, reaktantların ya yapı taşları ya da ara ürünler olması durumunda uygulanır. Gerçek dünyada, kimyacılar genellikle bu yolları adım adım, her dönüşümü düşünerek çıkarım yaparak belirlerler.
ReaSyn, bu adım adım düşünmeyi CoR notasyonu aracılığıyla yakalar. CoR, bir sentez yolunu, reaktantlar ve ürünler SMILES formatında kodlanarak ve her reaksiyon bir tek reaksiyon sınıfı simgesi ile temsil edilen bir dizi olarak sunar. Bu temsil yöntemi, kimyasal tepkimeleri düşünme tarzını yansıtır ve modele her adımda daha zengin bir öğretim sinyali sağlar.
Pathway Üretimini Geliştirme: LLM Düşünme Stratejilerini Uygulamak
Sentez yolu üretimini LLM düşünme şekli olarak görmek, ek olarak takviyeli öğrenme (RL) ince ayarları ve test zamanı arama gibi LLM düşünme tekniklerini benimseme imkanı sağlar. ReaSyn, bu iki tekniği sentez yolu üretiminde incelemektedir.
Sonuç bazlı RL ince ayarları, ReaSyn’in keşif yeteneklerini geliştirmektedir. Farklı sentez yolları, aynı ürün molekülüne giden çeşitli yolların olabileceğinden, farklı yolları örnekleyip geri bildirim almak için GRPO algoritması kullanılmaktadır. Bu şekilde, yolun sonuçları üzerinden ödüllendirilen bir sistemle farklı sentez yollarını keşfetme imkanı sağlanmaktadır.
Üretim sırasında, ReaSyn, bir dizi yol üzerinde genişleyerek blok-blok (BB veya RXN) genişlemeyi sürdüren beam search kullanır. Bu yöntem, tek bir giriş molekülü için çeşitli yollar üretme olanağı sağlamakta ve bir ödül fonksiyonu aracılığıyla üretimi yönlendirmektedir.
ReaSyn ile Sentez Yollarını Üretmek
ReaSyn’in sentezlenebilirlik projeksiyonu, retrosentetik planlama, sentezlenemeyen moleküller için analog önerme, hedef odaklı moleküler optimizasyonu destekleme ve sentezlenebilir hit genişletme gibi çok çeşitli görevlerde oldukça etkilidir. Bu görevlerdeki performansını inceleyelim.
Örneğin, retrosentetik planlamada, ReaSyn’in başarı oranları oldukça yüksektir. Çeşitli sentezlenebilir moleküller için ReaSyn, önceki sentez yol modellerine göre çok daha yüksek başarı oranları göstermektedir.
ReaSyn, molekülleri optimizasyon amacıyla projeksiyon yaparak çok sayıda molekül optimizasyonu görevinde etkili performans sergilemektedir. Graph GA ile birleştiğinde, Graph GA-ReaSyn, önceki yöntemlerden daha üst düzey optimizasyonlar sunmaktadır.
ReaSyn, hit moleküllerinin komşuluklarında keşif yaparak, çeşitli sentezlenebilir analoglar önerme yeteneğine sahiptir. Bu şekilde, hit genişletme uygulamalarında etkili bir şekilde kullanılmaktadır.
İleri Dönüşümlerle İlaç Keşfini Güçlendirme
Çoğu generatif model, pratikte sentezlenemeyen moleküller meydana getirir. ReaSyn, son gelişmeleri kullanarak, bilim insanlarına sentezlenebilir kimyasal alanlarda etkili bir araç sunar. Gelişmiş düşünme yetenekleri, çeşitliliği ve çok yönlülüğü ile ReaSyn, gerçek dünya ilaç keşfinde önemli bir rol üstlenmektedir.
ReaSyn hakkında daha fazla bilgi edinmek için arXiv üzerindeki makalemizi okuyabilir ve kodları GitHub’dan bulabilirsiniz.