Microsoft GRIN-MoE AI modeli, kodlama ve matematik alanında rakiplerini geçerek önemli testlerde başarılı oldu.

Microsoft, kodlama ve matematik gibi karmaşık görevlerde ölçeklenebilirliği ve performansı artırmayı hedefleyen devrim niteliğinde bir yapay zeka modeli olan GRIN-MoE (Gradient-Informed Mixture-of-Experts) duyurdu. Bu model, sadece belirli bir zamanda yalnızca küçük bir parametre alt kümesini etkinleştirerek verimliliği ve gücü bir araya getirerek işletme uygulamalarını yeniden şekillendirmeyi vadeder.

GRIN-MoE, “GRIN: GRadient-INformed MoE” başlıklı makalede detaylı bir şekilde açıklanmıştır. Bu makalede, Mixture-of-Experts (MoE) mimarisine yönelik yeni bir yaklaşım kullanılmaktadır. GRIN, model içindeki uzmanlara görevleri yönlendirerek seyrek hesaplama yaparak daha az kaynak kullanımıyla yüksek performans sağlar. Modelin ana yeniliği, uzman yönlendirmesi için gradyanı tahmin etmek için SparseMixer-v2‘yi kullanmasıdır, bu yöntem geleneksel uygulamalara önemli ölçüde iyileştirme sağlar.

GRIN-MoE, AI Benchmark’larındaki Rakiplerini Geride Bırakıyor

Benchmark testlerinde Microsoft’un GRIN MoE modeli, benzer ya da daha büyük boyuttaki modellere karşı olağanüstü performans göstermiştir. Model, Massive Multitask Language Understanding (MMLU) benchmark’ında 79.4, matematik problem çözme yeteneklerini test eden GSM-8K’de ise 90.4 puan elde etmiştir. Özellikle, model, kodlama görevleri için yapılan HumanEval benchmark’ında 74.4 puan alarak popüler modelleri, OpenAI’nin GPT-3.5-turbo’sunu geride bırakmıştır.

GRIN MoE, MMLU’da 70.5 ve Phi-3.5-MoE’de 78.9 puan alan benzer modelleri, Mixtral (8x7B) ve Phi-3.5-MoE (16×3.8B) gibi modelleri geride bırakıyor. “GRIN MoE, aynı veri üzerinde eğitilen 7B yoğun modeli geride bırakıyor ve 14B yoğun modelle aynı performansı sergiliyor” şeklinde belirtiliyor.

İşletmelerde AI’nın Verimliliğini Artıran GRIN-MoE

GRIN MoE’nin çok yönlülüğü, finansal hizmetler, sağlık ve imalat gibi güçlü akıl yürütme yeteneklerine ihtiyaç duyan endüstriler için uygun olmasını sağlar. Mimarisi, bellek ve hesaplama sınırlamalarıyla başa çıkacak şekilde tasarlanmıştır.

Modelin “ne uzman paralelizmesine ne de jeton atma işlemine ihtiyaç duyarak MoE eğitimini ölçeklendirmesine olanak tanıması”, sınırlı veri merkezi kapasitesine sahip ortamlarda daha verimli kaynak kullanımına olanak sağlar. Ayrıca, kodlama görevlerindeki performansı da dikkat çekicidir. HumanEval kodlama benchmark’ında 74.4 puan alan GRIN MoE, otomatik kodlama, kod incelemesi ve hata ayıklama gibi görevler için yapay zekayı hızlandırma potansiyelini gösterir.

GRIN-MoE’nin Gelecekteki Etkisi

Microsoft’un GRIN-MoE, özellikle işletme uygulamaları için AI teknolojisinde önemli bir adımı temsil etmektedir. Kodlama ve matematik görevlerinde üstün performansı korurken verimli bir şekilde ölçeklenebilmesi, işletmelerin hesaplama kaynaklarını aşırı yüklenmeden AI entegrasyonunu hızlandırmak için değerli bir araç olarak konumlandırır.

İnceleme ekibi, “Bu model, dil ve multimodal modeller üzerine araştırmayı hızlandırmak amacıyla tasarlanmış olup, generatif AI destekli özelliklerin bir yapı taşı olarak kullanılabilir” şeklinde açıklıyor. İşletmelerde AI’nın giderek artan öneminde, GRIN MoE gibi modellerin işletme AI uygulamalarının geleceğini şekillendirmede önemli olacağı muhtemeldir.

Microsoft, AI araştırmasının sınırlarını zorladıkça, GRIN-MoE, şirketin endüstriler arası teknik karar vericilerin değişen ihtiyaçlarını karşılamaya yönelik sağladığı son teknoloji çözümlerinde bir şeref belgesi olarak durmaktadır.