Yapay Zeka tarafından üretilen kodları herhangi bir dilde daha doğru hale getirme

Büyük Dil Modelleri ile Kodlama Süreci Hızlanıyor

Programcılar, artık büyük dil modelleri (LLM) sayesinde bilgisayar kodu yazma süreçlerini daha hızlı gerçekleştirebiliyor. Ancak, bu kolaylık yalnızca üretilen kodun programlama dilinin kurallarına uyduğu ve bilgisayarı çökertmediği sürece anlamlı.

LLM’lerin belirli bir dilin kurallarına uygun kod üretebilmesi için bazı yöntemler mevcut, ancak bu yöntemlerin çoğu ya modelin niyetini bozan bir şekilde çalışıyor ya da karmaşık görevler için uygulanması zaman alıyor.

Yeni Yaklaşım ile Hatalar Azaltılıyor

MIT’deki araştırmacılar ve diğer kurumlardan uzmanların geliştirdiği yeni bir yönteme göre, LLM’lerin hata yapmayan ve ilgili dilin kurallarına uygun bir şekilde metin üretmesini sağlamak için otomatik bir yol sunuluyor. Bu yöntem, LLM’nin mümkün olan en geçerli ve doğru çıktılara odaklanmasını sağlarken, umut verici olmayan çıktıları süreç içinde baştan elemesini sağlıyor. Bu olasılık tabanlı yaklaşım, hesaplama verimliliğini artırıyor.

Bu verimlilik artışları sayesinde, araştırmacıların mimarisi, küçük LLM’lerin birçok gerçek dünya uygulamasında daha büyük modellere göre daha iyi performans göstermesine olanak tanıdı.

Kontrol Edilebilir AI İçin Fırsatlar

Uzun vadede, bu yeni mimari, uzman olmayan kullanıcıların yapay zeka tarafından üretilen içeriği daha iyi kontrol etmesine yardımcı olabilir. Örneğin, iş insanları yalnızca doğal dil ile istemlerde bulunarak karmaşık SQL sorguları yazabilir hale gelebilir.

“Bu çalışma, araştırmadan daha fazlasını ifade ediyor. Programlama asistanlarını, yapay zeka destekli veri analizlerini ve bilimsel keşif araçlarını geliştirebilir. Bu sayede, yapay zeka tarafından üretilen çıktılar hem kullanışlı hem de doğru kalabilir,” diyor João Loula, MIT’de hazırlanan bir çalışmanın ortak yazarlarından biri.

Anlam ve Yapı Arasında Denge

LLM’ler tarafından üretilen yapılandırılmış metinleri kontrol etmenin yaygın yaklaşımlarından biri, tüm çıktının geçerliliğini kontrol etmektir. Eğer bir hata varsa, kullanıcı sıfırdan başlamak zorunda kalıyor ve bu da kaynak tüketimini artırıyor.

Bir programcı, çıktıyı kontrol etmek için durabilir; ancak bu durum, kodun istemcinin niyetini yitirmesine ve uzunca vadede doğruluğu etkilemesine neden olabilir. “Yapıyı kontrol etmek çok daha kolaydır. Bir şeyin doğru programlama dilinde olup olmadığını hızlıca kontrol edebiliriz, ama anlamını kontrol etmek için kodu çalıştırmak gerekir,” diyor Loula.

Araştırmacıların yaklaşımı, düzeni sağlamaya yardımcı olan bilgi mühendisliği içeriyor. Bu bilgiler, kullanıcı tarafından tanımlanan yapısal kısıtlamaların yanı sıra, kullanıcının niyet ettiği anlamı da kapsayan en umut verici çıktılara yöneliyor.

“Amacımız, LLM’yi bu amaçla eğitmek değil; bunun yerine, bir uzman tarafından bilinen bazı bilgileri mühendislik yoluyla LLM’nin bilgisiyle birleştirmek,” diyor Mansinghka.

Küçük Modellerin Gücünü Artırma

Yöntemlerini test etmek için, araştırmacılar LLM’leri Python kodu, SQL veritabanı sorguları, moleküler yapılar ve robot planları gibi dört tür çıktı üretme görevlerine uyguladı. Bu çerçeve, mevcut yöntemler ile karşılaştırıldığında daha doğru sonuçlar verirken daha az hesaplama gerektiriyordu.

Örneğin, Python kodu üretme konusunda araştırmacıların mimarisi, boyutunun iki katından fazla olan kapalı kaynaklı özel bir modeli geride bırakan küçük, açık kaynaklı bir modelin performansını artırdı.

“Küçük modellerin bu kadar başarılı sonuçlar alabilmesi bizi çok heyecanlandırıyor,” diyor Loula. Gelecekte, araştırmacılar bu tekniği, oluşturulan çıktıları daha büyük parçalara kontrol etmek için kullanmayı hedefliyorlar. Aynı zamanda, bu yöntemi öğrenme ile birleştirerek, modelin ürettiği çıktıları kontrol ederken daha doğru hale gelmesini sağlamak istiyorlar.

Sonuç olarak, bu projeyi teknik bilgiye sahip olmayan kullanıcılar için daha geniş uygulamalarla birleştirmek mümkün olabilir. Örneğin, otomatik veri modelleme sistemleri ve veritabanlarının sorgulanması gibi sistemlerle birleştirilmesi planlanıyor.

“Dilbilimin temel sorularından biri, kelimelerin, ifadelerin ve cümlelerin anlamlarının dünyadaki modellerle nasıl bağlantılı olduğunu açıklamaktır. LLM’ler, olası token dizilerini tahmin ederken bu sorunu ele almıyor. Çalışmamız, dar simgesel alanlarda, kelimelerden anlamların dağılımlarına geçişin teknik olarak mümkün olduğunu gösteriyor. Bu, makinelerin dünyada bizim gibi iletişim kurmasını anlamak için bilişsel bilim, dilbilim ve yapay zeka alanlarındaki derin sorulara doğru küçük bir adım,” diyor O’Donnell.

Bu araştırma, kısmen Kanada CIFAR AI Kursları Programı ve MIT Siegel Ailesi Zeka Arayışı’na katkı sağlayan Siegel Aile Vakfı tarafından desteklenmiştir.

Exit mobile version