SON DAKİKA

İş Dünyası

İnce Ayar ve Bağlam Öğrenimi: LLM Özelleştirmede Yeni Araştırmalar

Günlük ve haftalık bültenlerimize katılarak endüstri lideri yapay zeka haberlerine dair son güncellemeleri ve özel içerikleri takip edin. Daha Fazla Öğrenin


İki yaygın yaklaşım, büyük dil modellerini (LLM’leri) özel görevler için özelleştirirken ince ayar ve bağlam içi öğrenme (ICL) olarak adlandırılır. Google DeepMind ve Stanford Üniversitesi’ndeki araştırmacılar yaptıkları son çalışmada, bu iki yönteminin genelleme yeteneklerini araştırdılar. ICL’nin daha yüksek bir genelleme kabiliyeti olduğunu buldular, ancak bu, çıkarım sırasında daha yüksek bir hesaplama maliyeti gerektiriyor. Ayrıca, her iki dünyanın en iyisini elde etmek için yeni bir yöntem önerdiler.

LLM’lerin Yeni Bilgileri Öğrenme Yeteneği

İnce ayar, önceden eğitilmiş bir LLM’nin daha küçük, özel bir veri kümesi üzerinde daha fazla eğitim alması anlamına gelir. Bu, modelin iç parametrelerini ayarlayarak yeni bilgiler veya beceriler öğretir. Öte yandan, bağlam içi öğrenme (ICL), modelin temel parametrelerini değiştirmez. Bunun yerine, LLM’yi doğrudan girdi istemine örnekler vererek yönlendirir. Model, bu örnekleri kullanarak yeni, benzer bir sorguyu nasıl ele alacağını öğrenir.

İki Yöntemin Karşılaştırılması

Araştırmacılar, bu iki yöntemin nasıl genelleme yaptığını kıyaslamak için titiz bir şekilde çalıştılar. Karmaşık ve kendi kendine tutarlı yapılar içeren “kontrollü sentetik veri kümeleri” oluşturduklar. Bu yapı, hayali aile ağaçları veya kurgusal kavramların hiyerarşileri gibi örnekleri içerir.

Modelin yeni bilgileri öğrenme yeteneğini test etmek için, isimler, sıfatlar ve fiiller rastgele terimlerle değiştirilerek, LLM’lerin önceden eğitim sırasında karşılaşmış olabilecekleri verilerle üst üste gelinmemesi sağlandı.

Genelleme Sonuçları ve Stratejiler

Modeller çeşitli genelleme zorlukları üzerinde test edildi. Örneğin, basit ters çevirmeler ile bir test gerçekleştirildi. Model “femp daha tehlikelidir glon” ile eğitilmişse, “glon femp’ten daha az tehlikeli midir?” sorusunu doğru olarak çıkarabilir mi? Bir diğer test ise basit sılolizma odaklanıyordu. “Tüm glonlar yomp’tur” ve “Tüm trofflar glon’dur” denildiğinde, model “Tüm trofflar yomp’tur” sonucuna vardığında bunu çıkarabilir mi? Daha karmaşık bir “anlamsal yapı referansı” testi de mevcut idi, bu test daha karmaşık kavramların anlayışını ölçmeyi hedefliyordu.

Araştırmada görev almak üzere Gemini 1.5 Flash, bu veri kümeleri üzerinde ince ayar yapıldı. ICL için, eğitim veri setinin tamamı (veya büyük alt kümeleri), test soruları sorulmadan önce bir talimatı ayarlanan modele bağlam olarak verildi.

Sonuçlar, verilerle eşleşen ayarlarda, ICL’nin standart ince ayara kıyasla daha iyi genelleme sağladığını gösterdi. ICL kullanan modeller genellikle verilen bağlamdan ters ilişkileri çözme veya mantıksal çıkarımlar yapma gibi görevlerde daha başarılıydı. Önceden eğitilmiş modeller, ince ayar veya ICL uygulanmadan zayıf performans gösterdi; bu da test verisinin yeniliğini gösteriyordu.

Andrew Lampinen, Google DeepMind’da Araştırma Bilimcisi ve çalışmanın baş yazarı, “ICL’nin ince ayar gerektirmediğini (bu da eğitim maliyetlerini düşürüyor) belirtmemiz gerekiyor, ancak her kullanımda daha yüksek bir hesaplama maliyeti gerektiriyor” dedi.

Hibrit Yaklaşım: İnce Ayar ile Zenginleştirme

Araştırmacılar, ICL’nin esnek genellemede üstün olduğu gözlemini geliştirerek, ince ayarı zenginleştirmek için yeni bir yöntem önerdiler: ICL ile çıkarılan tahminleri ince ayar verilerine eklemek. Temel fikir, LLM’nin ICL yeteneklerini kullanarak daha çeşitli ve zengin çıkarım örnekleri üreterek, daha sonra bu zenginleştirilmiş örneklerin ince ayar için kullanılacak veri setine eklenmesidir.

İki ana veri zenginleştirme stratejisi üzerinde duruldu:

  1. Yerel strateji: Bu yaklaşım, bireysel bilgiler üzerinde yoğunlaşır. LLM’ye eğitim verisinden tek cümleleri yeniden ifade ettirmek veya doğrudan çıkarımlar yapmak (örneğin, ters denklemler oluşturarak) için yönlendirme yapılır.
  2. Küresel strateji: LLM, tam eğitim veri setini bağlam olarak alır, ardından belirli bir belge veya gerçeği sağladığı diğer bilgilere bağlayarak çıkarım yapması istenir, bu da ilgili çıkarımların daha uzun bir izini oluşturur.

Bu zenginleştirilmiş veri setleri ile ince ayar yapılan modellerde, elde edilen kazanımlar önemli ölçüde artmıştır. Bu zenginleştirilmiş ince ayar, yalnızca standart ince ayardan değil, aynı zamanda düz ICL’den de daha iyi bir genelleme sağladı.

Örneğin, bir şirket belgesi “XYZ, verileri analiz etmek için bir iç araçtır” diyorsa, “Veri analizi için hangi iç araçlar mevcut?” gibi ilgili soruların yanıtlandırılmasında ICL ve zenginleştirilmiş ince ayar daha etkili olacaktır,” diye belirtti Lampinen.

Bu yaklaşım, şirketler için cazip bir yol sunuyor. ICL ile zenginleştirilmiş veri kümesi oluşturma konusunda yapılan yatırımlar, geliştiricilerin daha güçlü genelleme yeteneklerine sahip ince ayar yapılmış modeller geliştirmesine olanak tanıyabilir.

Sonuç olarak, bu durum daha sağlam ve güvenilir LLM uygulamalarına yol açabilir; bu uygulamalar, çeşitli gerçek dünya girdileri üzerinde daha iyi performans gösterirken büyük bağlam istemlerine bağlı sürekli çıkarım maliyetlerinden de kaçınabilirler. Ancak Lampinen, bu zenginleştirmenin maliyetinin artacağını belirtti; çünkü veri zenginleştirmesi için ICL ek bir aşama gerektiriyor, ardından ince ayar geliyor. Bununla birlikte, uzun vadede modelin birçok kullanımı göz önünde bulundurulduğunda, ICL kullanımından daha hesaplı olacağı söylenebilir.”

“Sonuçta, bu çalışmanın, temellendirilmiş modellerin öğrenme ve genelleme anlayışına katkıda bulunmasını ve bunları detaylı görevler için nasıl uyarlayacağımız konusundaki pratikleri geliştirmesini umuyoruz,” dedi Lampinen.

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri