“`html
Lisan Modellerinin Gelişimi
Geçmişte yalnızca metin işleyebilen dil modelleri, günümüzde çok çeşitli görevleri farklı veri türlerinde yerine getirebilen büyük dil modelleri (LLM’ler) haline gelmiştir. Örneğin, LLM’ler birçok dili anlayabilir, bilgisayar kodu yazabilir, matematik problemlerini çözebilir veya görsel ve işitsel içeriklerle ilgili soruları yanıtlayabilir.
İnsan Beyni ile Benzerlikler
MIT’deki araştırmacılar, LLM’lerin çeşitli verileri nasıl işlediğini daha iyi anlamak için bu modellerin iç işleyişlerini inceledi. Araştırmalar, LLM’lerin bazı açılardan insan beynine benzediğini ortaya koymaktadır. Neuroscientistler, insan beyninde farklı duyulardan gelen bilgileri entegre eden bir “anlamsal merkez” olduğunu düşünmektedir. Bu merkez, bilgileri yönlendiren çeşitli “ray”larla bağlantılıdır.
MIT araştırmacıları, LLM’lerin farklı verileri merkezi bir şekilde soyut bir şekilde işlediğine dair benzer bir mekanizma kullandıklarını keşfetmişlerdir. Örneğin, İngilizce baskın bir model, Japonca gibi diğer dillerdeki verileri işlerken, İngilizceyi merkezi bir araç olarak kullanmaktadır.
Çeşitli Verilerin Entegrasyonu
Bu çalışma, önceki araştırmalara dayanmaktadır ve İngilizce merkezli LLM’lerin diğer dillerde akıl yürütme süreçlerini İngilizce kullanarak gerçekleştirdiğini göstermektedir. Araştırmacılar, LLM’lerin farklı verileri işlemekte kullandıkları mekanizmaları derinlemesine incelemek için bu fikri geliştirdi.
LLM’ler, iç içe geçmiş birçok katmandan oluşur ve metin girdisini kelimelere veya alt kelimelere ayırır. Model, her token’e bir temsil atar; böylece token’lar arasındaki ilişkileri keşfederek bir dizi içindeki sonraki kelimeyi oluşturabilir. Görsel veya işitsel veriler söz konusu olduğunda, bu token’lar belirli bir görüntü bölgesine veya ses parçasına karşılık gelir.
Araştırmacılar, modelin ilk katmanlarının verileri belirli bir dilde veya modalitede işlediğini, sonra bu token’ları modalite-den bağımsız temsillere dönüştürdüğünü bulmuşlardır. Bu süreç, insan beyninin anlamsal merkezinin çeşitli bilgileri bir araya getirmesiyle benzerlik göstermektedir.
Böylece, model benzer anlamlara sahip olan verileri (resimler, ses, bilgisayar kodu, matematik problemleri gibi) benzer temsillerle eşleştirmektedir. Örneğin, bir İngilizce baskın LLM, bir Çince cümleyi “düşünmeden” önce İngilizce düşünür ve ardından Çince bir çıktı üretir.
Hedefe Yönelik Müdahale Olanakları
Araştırmacılar, modelin iç katmanlarına İngilizce metin müdahale ettiklerinde, başka dillerdeki çıktıların bile öngörülebilir şekilde değişebileceğini bulmuşlardır. Bu fenomen, modelin farklı veri türleri arasında bilgi paylaşımını artırmaya yönelik verimliliği artırıcı bir fırsat sağlar.
Ancak bazı kavramlar ya da bilgiler diller arasında çevrilemeyebilir; bu durum kültürel bilgi gibi dil-dışı unsurlardır. Dolayısıyla, LLM’lerin bazen dil özelinde işlem mekanizmalarına sahip olması istenebilir.
“Dil modellerinin farklı dillerde ve modalitelerde girdileri nasıl işlediğini anlamak, yapay zeka için önemli bir sorudur. Bu çalışma, nörobilim ile ilginç bir bağlantı kurarak ‘anlamsal merkez hipotezinin’ modern dil modellerinde geçerli olduğunu gösteriyor.” diyor Tel Aviv Üniversitesi’nden Mor Geva Pipek, bu araştırmaya dahil olmayan bir asistan profesör.
Araştırma, kısmen MIT-IBM Watson AI Laboratuvarı tarafından finanse edilmiştir.
“`