Google DeepMind tarafından geliştirilen bir yapay zeka sistemi, uluslararası bir matematik yarışmasında ortalama altın madalya kazananından daha iyi bir performans sergileyerek geometri problemlerini çözme yeteneğini geliştirdi.
AlphaGeometry2’nin Başarısı
Söz konusu sistem, geçen yıl Ocak ayında tanıtılan AlphaGeometry sisteminin geliştirilmiş versiyonu, AlphaGeometry2. DeepMind araştırmacıları, yeni yayınlanan bir çalışmada, AlphaGeometry2’nin son 25 yıla ait Uluslararası Matematik Olimpiyatı (IMO) geometri problemlerinin %84’ünü çözebildiğini iddia ediyorlar.
Geometri Problemleri ve Derin Öğrenme
DeepMind, neden yüksek okul seviyesindeki bir matematik yarışmasına önem verdiğini açıklıyor. Laboratuvar, daha yetenekli yapay zeka sistemleri geliştirmeye yönelik yeni çözüm yöntemleri bulmanın anahtarının zor geometri problemlerinde yatabileceğine inanıyor. Özellikle Öklidyen geometri probleması.
Matematik teoremlerini kanıtlamak ya da bir teoremin (örneğin, Pythagorean teoremi) neden doğru olduğunu mantıksal olarak açıklamak, hem akıl yürütme hem de çözüm için çeşitli adımları seçebilme yeteneği gerektiriyor. Bu problem çözme becerileri, eğer DeepMind haklıysa, gelecekteki genel amaçlı yapay zeka modellerinin yararlı bir bileşeni olabilir.
AlphaGeometry2’nin Dünya İle Etkileşimi
Bu yaz geçen yaz, DeepMind, AlphaGeometry2 ile formal matematik akıl yürütmesi için tasarlanmış AlphaProof modelini birleştirerek 2024 IMO’dan altı problemin dördünü çözdü. Geometri problemlerinin yanı sıra, bu tür yaklaşımlar diğer matematik ve bilim alanlarına — örneğin karmaşık mühendislik hesaplamalarına — da uyarlanabilir.
AlphaGeometry2, Google’ın Gemini AI modelleri ailesinden bir dil modeli ve bir “sembolik motor” içeriyor. Gemini modeli, sembolik motorun, matematik kurallarını kullanarak sorunlara çözümler önermesine yardımcı oluyor ve belirli bir geometri teoremi için geçerli kanıtlar bulmasına yardımcı oluyor.

AlphaGeometry2’nin Çalışma Prensibi
Olimpiyat geometri problemleri, çözülmeden önce diyagramlarına “yapılar” eklenmesi gereken sorunlardır, örneğin noktalar, çizgiler veya daireler. AlphaGeometry2, diyagramda eklenmesi gereken yararlı yapıları tahmin eder ve motor, bu bilgileri çıkarımlarda bulunmak için referans alır.
Temelde, AlphaGeometry2’nin Gemini modeli, motor için belirli matematiksel dille adımlar ve yapılar öneriyor; motor ise bu adımları mantıksal tutarlılığa göre kontrol ediyor. Bir arama algoritması, AlphaGeometry2’nin çözümler için birden fazla arama yapmasına ve olası yararlı bulguları ortak bir bilgi tabanında depolamasına olanak tanıyor.
Synthetic Veri Kullanımı ve Sınav Sonuçları
AlphaGeometry2, bir problemi çözmüş sayıyor; bu, Gemini modelinin önerileri ile sembolik motorun bilinen prensiplerinin bir araya geldiği bir kanıt oluşturduğunda gerçekleşiyor.
Yapay zeka sistemlerinin anlayabileceği formatlara çevrilmiş kanıtların karmaşıklığı nedeniyle, kullanılabilir geometri eğitim verisi sıkıntısı yaşanıyor. Bu nedenle DeepMind, AlphaGeometry2’nin dil modelini eğitmek için 300 milyonun üzerinde teorem ve kanıt üreten kendi sentetik verilerini oluşturdu.
DeepMind ekibi, son 25 yılda (2000’den 2024’e kadar) IMO yarışmalarından 45 geometri problemini seçti. Daha sonra bu problemleri daha büyük bir set olan 50 problem setine “çevirerek” genişletti. (Teknik nedenlerle bazı problemler ikiye bölündü.)
Çalışmaya göre, AlphaGeometry2, bu 50 problemin 42’sini çözerek ortalama bir altın madalya kazananının 40,9 olan puanını geçti.
Elbette bazı sınırlamalar mevcut. AlphaGeometry2, değişken sayıda noktalara sahip problemleri, nonlineer denklemler ve eşitsizlikleri çözme konusunda bazı teknik sorunlar yaşıyor. Ayrıca AlphaGeometry2, teknik olarak bu düzeyde performans gösteren ilk yapay zeka sistemi değil, ancak bu boyutta bir problem seti ile bunu başaran ilk sistem.
Simbol Manipülasyonu ve Sinir Ağları
AlphaGeometry2, daha karmaşık IMO sorunları üzerinde de başarısıziyet gösterdi. Orta düzeyde zorlukta 29 problem seçilerek, matematik uzmanları tarafından IMO sınavlarına aday gösterilen problemler arasından yalnızca 20’sini çözebildi.
Hala bu çalışma sonuçları, yapay zeka sistemlerinin simgelerle manipülasyon üzerine mi kurulması gerektiği, yoksa daha çok beyin benzeri olan sinir ağlarına mı dayanması gerektiği tartışmalarını kızıştıracak gibi görünüyor.
AlphaGeometry2, simbol manipülasyonu ve sinir ağları________________________________nya hibrid bir yaklaşım benimsiyor: Gemini modeli bir sinir ağı mimarisine sahipken, sembolik motor kurallara dayalı işlemler gerçekleştiriyor.
Sinir ağı tekniklerinin savunucuları, akıllı davranışın —ses tanımadan görsel üretime kadar— yalnızca büyük miktarda veri ve hesaplama gücü ile ortaya çıkabileceğini öne sürmektedir. Simbolik sistemlerin, belirli görevler için sembolleri manipüle eden kurallar tanımladığı ve bu kuralların işlevselliğini artırdığı düşünülüyor. Öte yandan, sinir ağları ise görevleri istatistiksel yaklaşıklarla çözmeye çalışıyor.
Bu sinir ağları, OpenAI’nin o1 gibi güçlü yapay zeka sistemlerinin temel taşlarını oluşturuyor. Ancak sembolik yapay zeka destekçileri, bunların her şey değil; sembolik yapay zekanın karmaşık senaryolar arasında akıl yürütme yapabilme ve elde edilen sonuçları “açıklama” konusunda daha uygun bir konumda olduğu görüşünü savunuyor.
Gelecekteki Beklentiler
“Bu tür ölçütlerdeki hala muazzam bir ilerleme kaydedilirken, dil modellerinin, daha yeni olanların bile ‘akıl yürütme’ gibi bazı basit sağduyu problemleriyle mücadele etmesi çarpıcı,” diyor Vince Conitzer, Carnegie Mellon Üniversitesi’nden bir yapay zeka uzmanı. “Bunların hepsinin bir aldatmaca olduğunu düşünmüyorum fakat sonraki sistemlerden ne tür davranışlar beklememiz gerektiğini hâlâ tam anlamıyla bilmiyoruz. Bu sistemlerin oldukça etkili olması muhtemel, bu yüzden onları ve doğurabilecekleri riskleri anlamak için acilen daha fazla bilgiye ihtiyacımız var.”
AlphaGeometry2, belki de, iki yaklaşımın —simbol manipülasyonu ve sinir ağları— bir arada kullanılması gereğine işaret ediyor. DeepMind’in çalışmasına göre, o1 hala çözüm bulamadı.
Sonuç olarak, DeepMind ekibi, AlphaGeometry2’nin dil modelinin sembolik motorun yardımı olmaksızın sorunlara kısmi çözümler üretebilme yeteneğine dair ön kanıtlar bulduklarını belirtiyor. “Sonuçlar, büyük dil modellerinin dış araçlardan (sembolik motorlar gibi) bağımsız olabileceğini destekliyor” diyorlar, “fakat [model] hızının arttırılması ve yanıltıcı bilgilerin tamamen çözülmesi gerekecek.”