Giriş: Büyük Dil Modellerinin Zorluğu
Büyük dil modelleri (LLM’ler), genel amaçlı yapay zeka araçları olarak önemli başarılar elde etmesine rağmen, yüksek hesaplama kaynakları talep etmeleri, gerçek dünya senaryolarında uygulanmalarını zorlaştırıyor. Modelin boyutu ve konuşma durumu, mevcut yüksek bant genişliğine sahip bellekle sınırlı olduğu için, hizmet verilebilecek kullanıcı sayısı ve konuşma uzunluğu da sınırlı kalıyor.
LLM Mimarileri: Transformers ve Seçici Durumuzay Modelleri
Günümüzde en popüler LLM mimarileri Transformers ve seçici durumuzay modelleri (SSM’ler) olup, bu iki yaklaşım, sırasıyla çok büyük ve sınırlı bellek sistemleri sunmaktadır.
- Transformers: Konuşma durumu, her bir sekans elementi için ayrı bir temsil ile oluşur, bu da hızlı bir şekilde büyümesine neden olur.
- SSM’ler: Tüm sekansı tek bir temsil içinde sıkıştırarak, sınırlı kapasitesi nedeniyle geçmiş bilgileri unutma olasılığını artırır. Konuşma durumunun sıkıştırılması, bellek alanını açarak her iki durumda da daha fazla bilgi işlenmesine, daha uzun konuşmaların yapılmasına ve gecikmenin azalmasına olanak tanır.
Daha Verimli LLM Kullanımı için DMC Geliştirilmesi
NVIDIA’daki araştırmacılar, LLM’lerin uygulanabilirliğini artıran ve bellek tükenmesini engelleyen dynamo bellek sıkıştırma (DMC) adı verilen yeni bir teknoloji geliştirdiler. DMC, bir Transformer modelinin konuşma durumunu uyumlu bir şekilde sıkıştırmasını sağlar ve böylece tanıdık Transformer mimarisini değiştirmeden, konuşma durumunun boyutunda önemli bir azalma sağlar.
DMC, mevcut modellerin, az miktarda ek eğitimle uyumlu hale getirilmesi gerektiğinden, tamamen sıfırdan eğitilmeyi gerektirmemektedir. Bu, hatalı ve güvenilmez eğitim-sız yöntemlere kıyasla daha güvenilir bir yaklaşımdır.
DMC’nin Çalışma Prensibi: Bellek Sıkıştırması
DMC, bellek sıkıştırma işlemini gerçekleştirmek için, her bir token, katman ve başlık için ayrı karar vermektedir. Hesaplanan değerlerin alfa adı verilen değişken ile yeni anahtar ve değer çiftinin KVP (anahtar-değer çifti) önbelleğine eklenip eklenmeyeceği belirlenir:
k_i = αk_{i-1} + k_{new_i}
DMC’nin merkezi olan bu formül, anahtarların alt dizisi üzerinde belirli bir prefix toplamına dönüşmektedir.
DMC sırasında, kaliteyi düşürmeden KVP önbelleğini sıkıştırmak mümkündür. Bu yöntem, Llama ailesindeki mevcut LLM’lerin yalnızca %2–8’i kadar bir eğitimle uygulanabilir.
DMC Sonuçları ve Performans Analizi
DMC, MMLU (faktüalite), genel bilgi soruları yanıtlama ve kodlama gibi çeşitli uygulamalarda, standart modellerle karşılaştırılabilir performans sağlamaktadır. DMC ayrıca KVP önbelleği boyutunu azaltmak için başka yöntemlerle birleştirilebilir.
Bazı durumlarda, performansın artmasının nedeni, sıkıştırmanın, içsel bilgi kaybı gibi durumları hafifletmesidir. DMC, konuşma durumu sıkıştırması sayesinde, bellekte daha büyük bir batch boyutunu karşılayabilme imkânı sunarak, verimliliği artırmaktadır.
Sonuç: Gelecekteki Uygulamalar ve Gelişmeler
DMC, LLM’lerin sınırlarını zorlamak için büyük bir potansiyele sahiptir. Adaptif bellek sağlaması, Transformer’ların lineer bellek ile SSM’lerin sabit bellekleri arasında bir denge sunuyor. Bu da, kaliteden ödün vermeden LLM verimliliğini artırmakta ve aynı donanım kısıtları altında daha uzun bağlamların işlenmesine imkân tanımaktadır.
Daha fazla bilgi için NeMo ve NVIDIA Akademik Programı gibi kaynaklara göz atabilirsiniz.