Google Arama ve İn-kontekst Öğrenmenin Birleşimi
Dwarkesh Patel, Google’dan Jeff Dean ve Noam Shazeer ile bir röportaj yaptı ve burada, Google Arama ile in-kontekst öğrenme birleşiminin neye benzeyeceği hakkında bir soru sordu. Jeff Dean’den ilginç bir yanıt aldı.
İn-kontekst Öğrenme Nedir?
İn-kontekst öğrenme, aynı zamanda few-shot learning veya prompt engineering olarak da bilinir; bir büyük dil modeli (LLM) örneklerin veya talimatların verildiği bir teknik ile yanıtlar üretmesini sağlar. Bu yöntem, modelin anlık sorgu bağlamında sunulan kalıpları anlama ve uyum sağlama yeteneğinden faydalanır.
Büyük Dil Modelleri ve Bağlam Penceresi
Bağlam penceresi, bir büyük dil modelinin belirli bir anda gözlemleyebileceği veya “hatırlayabileceği” metin miktarıdır. Daha büyük bir bağlam penceresi, yapay zeka modelinin daha uzun girdileri işleyebilmesine ve her çıktı için daha fazla bilgi içermesine olanak tanır.
Bu sorunun yanıtı, videonun 32. dakikasında başlamaktadır:
İşte metin dökümü, okumak istemiyorsanız:
Soru:
Google Arama’nın üzerinde çalıştığınız bir konu olduğunu biliyorum; bu, internetin tamamının kontext içinde yer aldığı bir arama biçimi. Bunun yanı sıra, dil modellerinin sınırlı bağlamı var, ama gerçekten düşünebiliyorlar. İn-kontekst öğrenmeyi düşündüğünüzde, Google Arama ile nasıl birleştirmek istersiniz?
Evet, buna bir yanıt vereyim çünkü bunu bir süre düşündüm. Bu modellerin bazıları oldukça iyi ancak bazen halüsinasyonlar ve gerçeklik sorunları yaşıyorlar. Bunun nedeni, onlardan bazıları trilyonlarca token kullanılarak eğitilmesi ve bunların hepsinin karıştırılmış olması. Model bu verilerin net bir görüşüne sahip olsa da, bazen bir şeyi yanlış hatırlayabiliyor. Oysaki, modelin bağlam penceresindeki bilgiler çok net ve keskin, çünkü dikkat mekanizması oldukça iyi çalışıyor. Şu anda, milyonlarca token ile başa çıkabilen modellerimiz var. Bu oldukça etkileyici. Ama modelin trilyonlarca tokenı dikkate alabilmesi beni heyecanlandırıyor. Tüm interneti tarayarak doğru verileri bulabilen bir model hayal ediyorum.
Aynı zamanda, tüm kişisel bilgilerime, e-postalarıma, belgelerime ve fotoğraflarıma erişimi olan bir model olsun isterim. Bana bir şey yapmamı söylediğimde, bunu yapabilse, izin vererek yardımcı olabilir. Ancak bu, büyük bir hesaplama zorluğu yaratıyor çünkü naif dikkat algoritmasıkare zaman karmaşıklığına sahip. Milyonlarca token için bunun üstesinden gelmek mümkün, ama trilyonlarca token için pratiğine gerçekleştirmek elde yok. Bu nedenle, yararlı sonuçlar elde etmek için oldukça ilginç algoritmik çözümler bulmamız gerekiyor.
Bu bulgulara daha derinlemesine dalmak için önemli bazı kaynaklar: