Temel Yetkinliklerde Devrim: Küçük Dil Modellerinin Yükselişi – Son zamanlarda, ajansif yapay zeka (agentic AI) hızlı bir şekilde yükseliş göstererek, işletmelerin, geliştiricilerin ve tüm endüstrilerin otomasyon ve dijital verimlilik konusundaki yaklaşımlarını dönüştürmüştür. Yazılım geliştirme süreçlerinden kurumsal süreç yönetimine kadar, yapay zeka ajanları giderek daha fazla, işletmelerin temel operasyonlarını desteklemekte, özellikle de daha önce tekrarlayıcı görevler olarak nitelenen alanlarda güçlü bir destek sunmaktadır.
Birçok bu tür ajanın, büyük dil modellerine (LLM) büyük ölçüde bağımlı olduğu görülmektedir. LLM’ler, genel akıl yürütme, akıcılık ve açık uçlu diyalog desteğiyle sıkça tanınmalarının yanı sıra, ajansif AI bağlamında her zaman en verimli veya en ekonomik seçim olmayabilirler. Yakın zamanda yayımladığımız bir pozisyon kağıdında, Küçük Dil Modellerinin (SLM) ajansif yapay zekadaki rolü hakkında gözlemlerimizi ayrıntılı bir şekilde belirttik. Küçük Dil Modelleri, Ajansif Yapay Zekanın Geleceğidir başlıklı çalışmamızda, SLM’lerin, LLM’lerin yerine ajansif uygulamalarda entegrasyonunda artan fırsatları vurgulayarak maliyetleri azaltma ve operasyonel esnekliği artırma yollarını ele aldık.
SLM’lerin Ajansif AI Görevlerinde Sağladığı Avantajlar
SLM’ler, ajansif dönemde, her bir dil modeli görevinde LLM işlevselliğinin dar bir kesitini kullandıkları için oldukça uygun bir konumdadır. LLM’ler güçlü genel uzmanlar olarak tasarlanmışlardır; fakat çoğu ajan yalnızca bu yeteneklerin çok dar bir alt kümesini kullanmaktadır. Genellikle komutları çözerek yapısal çıktılarını (örneğin JSON gibi) üretir veya özetler ve bağlamlı soruları yanıtlarlar. Bu görevler, tekrarlayıcı, öngörülebilir ve çok özel görevlerdir; dolayısıyla, uzman SLM’ler için oldukça uygundur.
LLM’lerin açık alan sohbetleri yürütmek üzere eğitilmesi, bu bağlamlar için gereksiz bir maliyettir; sonuç olarak, hesaplama ve maliyet israfına neden olabilir. Bununla birlikte, belirli ajansif rutinler için ince ayar yapılmış bir SLM daha güvenilir, yanılma oranı daha düşük, hızlı ve büyük ölçüde daha uygun fiyatlıdır. Başka bir deyişle, ajansif AI, her işe yarayan çok işlevli bir alet yerine, tek bir keskin aletin kullanılmasını gerektirir.
Üstelik SLM’ler, LLM’lerin daha zayıf kardeşleri değildir. Yeni SLM modelleri, genel akıl yürütme, araç çağırma ve talimat izleme gibi hedeflenmiş kıstaslarda, çok daha büyük LLM’lerle karşılaştırılabilir veya hatta daha iyi performans sergilemektedir. Örneğin, yakın zamanda üstün sınıf NVIDIA Nemotron Nano 2, ajansif AI’da yüksek performanslı SLM’lerin neler gerçekleştirebileceğini gösteriyor. Bu açık kaynak, 9B parametreli Mamba-dönüşüm modeli, daha az bellek tüketimi ile daha yüksek doğruluk sunmaktadır.
Heterojen Sistemlerde LLM’lerin Yeni Rolü
Bu, LLM’lerin tümüyle yok olacağı anlamına gelmez. Genel akıl yürütme yetenekleri, açık uçlu, insan benzeri diyaloglar, çok alanlı soyutlama ve transfer gerektiren bağlamlarda eşsizdir. Pratikte, geleceğin heterojen bir yapı olacak: SLM’ler, operasyonel alt görevlerin çoğunu üstlenirken, LLM’ler gerektiğinde başvurulmak üzere saklı tutulacak. Bunu, iş gücünde etkin, uzman ve güvenilir çalışanlar (SLM’ler) ile kapsamlı uzmanlık gerektiren durumlarda danışmanlık yapanlar (LLM’ler) olarak düşünebiliriz.
Neden SLM’ler Daha Yaygın Olarak Kullanılmıyor?
Eğer SLM’lerin belirgin avantajları varsa, neden çoğu ajan hâlâ LLM’lere bu denli aynı derecede bağlı? Bunun nedeninin, teknik kısıtlamalardan ziyade algıya veya kurumsal kültüre dayalı olduğunu öne sürüyoruz. SLM destekli mimarilere geçiş yapmak, belli bir zihniyet değişikliği gerektiriyor. SLM araştırmaları, genelist kıstasları kullanmaktadır; oysa ajansif yükler farklı değerlendirme metrikleri talep etmektedir. LLM’ler genellikle haberlerde öne çıktı. Ancak SLM destekli sistemlerin maliyet tasarrufları ve güvenilirliği belirginleştikçe, momentum başka yöne kayacaktır.
Birçok işletme, SLM’leri, düşük maliyet, daha hızlı sonuçlar ve daha geniş, daha esnek ajansif AI dağıtımı gibi değerli avantajlarla benimsemeye başlayabilir.
SLM’leri Ajans Yapılarına Nasıl Ekleyebilirsiniz?
SLM’leri ajans mimarilerine entegre etmeye hazır olan kuruluşlar için bu süreç oldukça basittir. İlk olarak, hangi görevlerin en sık tekrarlandığını anlamak için ajanslardan kullanım verileri toplanmalıdır. Bu veriler, uygun hale getirilmelidir. Görevler, çözümleme, özetleme veya kodlama gibi kategorilere ayrılır ve aday SLM’lerle eşleştirilir. Bu modeller, LoRA veya QLoRA gibi verimli teknikler kullanılarak ince ayar yapılır. Böylelikle, yüksek uzmanlık alanına sahip görev uzmanları haline gelirler.
Zaman içinde, bu süreç tekrar edilecek; ajans, daha fazla alt görevi daha ucuz, hızlı SLM’lere devrederek sürekli olarak gelişecektir. Böylelikle, yalnızca bir LLM’e bağımlı olan bir ajans, adım adım modüler, SLM destekli bir sisteme dönüşebilir.
Konu ile ilgili heyecan verici haberler ise, bu değişimi sağlamak için gerekli araçların zaten mevcut olduğudur. NVIDIA NeMo, verileri düzenlemek, modellere özelleştirmek ve ajansif AI sistemlerini izlemek için uçtan uca yazılımlar sunar. Bu sayede, herhangi bir kuruluştaki uzman olmayan kişiler bile bu heterojen sistemleri kurup dağıtabilir.
Sonuç: Heterojen Sistemlerin Avantajı
Ajansif AI sistemlerine olan talep hızla değişiyor. Bugünün SLM’leri, rutin ve uzman iş yüklerinin çoğu için güç, doğruluk ve verimlilik sunmaktadır. Bunun yanında, yalnızca LLM’lere fazlasıyla güvenmek giderek artan AI talepleri karşısında maliyetli ve verimsiz hale gelmektedir. Bunun yerine, büyük modellerin karmaşık sorunlar için uzman kaynaklar olarak hizmet etmesi daha mantıklıdır.
Heterojen modellerden oluşan bir sistemi benimseyen işletmeler ise; daha düşük maliyetler, daha hızlı sonuçlar ve dağıtımda daha geniş bir esneklik elde edeceklerdir. Küçük dil modellerinin entegrasyonu ile daha açık, modüler ve demokratikleştirilmiş bir işletme otomasyonu dönemi başlayacaktır.
Daha fazla bilgi için:
- Çalışmamızı okuyun.
- NVIDIA NeMo Özelleştirici ve NVIDIA Veri Hızlandırıcı Planı hakkında daha fazla bilgi edinin.
- NVIDIA Nemotron hakkında güncel kalmak için abone olun ve NVIDIA haberlerine ve LinkedIn‘deki NVIDIA AI sayfamıza takip edin.
- Nemotron hakkında gerekli tüm bilgilere ulaşmak içinNemotron sayfamızı ziyaret edin.
- Yeni açık Nemotron modellerini ve veri setlerini keşfedin.
- NVIDIA Nemotron’u en iyi şekilde kullanmak için video eğitimleri ve canlı yayınlarımıza göz atın.
 
            


















