IBM’in Yeni Granite 3.0 Üretken Yapay Zeka Modelleri: Küçük, Ancak Yüksek Doğruluk ve Verimlilik Sağlıyor

Bugün, IBM, açık dil modelleri ve tamamlayıcı araçlardan oluşan üçüncü nesil IBM Granite’i tanıttı. Önceki Granite nesilleri, belirli alanlara odaklanmıştı; ancak en son modeller, akademik ve kurumsal ölçütlerde, benzer boyutlardaki lider açık modellerin performansını karşılamakta veya onu aşmaktadır.

IBM Granite 3.0’ın Gelişmiş Modelleri

Geliştiricilere yönelik olan Granite 3.0, fonksiyon çağırma desteği ile tasarlanmış generatif AI modelleridir. Bu modeller, metin üretimi, agentik AI, sınıflandırma, araç çağırma, özetleme, varlık çıkarımı ve müşteri hizmetleri chatbotları gibi karmaşık iş akışlarının temel yapı taşlarını oluşturacak şekilde geliştirilmiştir.

Granite Serisi Hakkında

IBM, Granite serisini NVIDIA NIM mikroservisi üzerinden, endüstride güvenilirlik, güvenlik ve maliyet verimliliğini önceliklendiren bir yapı ile sunmuştur.

Granite 3.0, aşağıdaki bileşenleri kapsamaktadır:

  • Sadece metin içeren LLM’ler: Granite 3.0 8B, Granite 3.0 2B
  • Uzman Karışımı (MoE) LLM’ler: Granite 3.0 3B-A800M, Granite 3.0 1B-A400M
  • Giriş-çıkış koruma modelleri: Granite Guardian 8B, Granite Guardian 2B

Performans Optimizasyonu ve Speculative Decoding

Granite, 12 trilyondan fazla kurumsal veriden oluşan bir veri kümesi üzerinde eğitilmiştir. Yeni 8B ve 2B modeller, hem performans hem de hız açısından seleflerine kıyasla belirgin iyileşmeler göstermektedir.

Özellikle, speculative decoding adı verilen bir optimizasyon tekniği sayesinde, LLM’ler metin üretirken daha hızlı sonuçlar alabilmektedir. Bu yöntem, bir token’ı üretirken bir sonraki token için potansiyel seçenekleri değerlendirmekte ve doğru tahminlerin onaylanması durumunda tek bir işlemle birden fazla token üretme olanağı sunmaktadır.

Benchmark Ölçütü Mistral 7B Llama-3.1 8B Granite-3.0 8B
IFEval 0-shot 49.93 50.37 52.27
MT-Bench 7.62 8.21 8.22
Tablo 1. IBM Granite-3.0 8B Instruct modelinin popüler benchmark’lardaki doğruluk performansı.

Granite 3.0 8B Instruct, Mistral ve Llama modelleri ile uyum içerisinde performans göstermektedir ve ayrıca RAGBench veritabanında, kullanıcı kılavuzları gibi endüstri kaynaklarından alınan 100.000 görevi içeren bir tasarımda etkileyici sonuçlar sergilemektedir.

MoE Modellerinin Tanıtımı

IBM Granite 3.0, MoE (Uzman Karışımı) mimarisini içeren ilk modelleri de sunmaktadır: Granite-3B-A800M-Instruct ve Granite-1B-A400-Instruct. 10 trilyondan fazla veride eğitilen bu modeller, düşük gecikme süresi gerektiren uygulamalar için idealdir.

MoE mimarisinde, yoğun modelde kullanılan MLP katmanları, MoE katmanlarıyla değiştirilmiştir. Granite MoE mimarisinin önemli bileşenleri arasında, ince uzmanlar, token yönlendirmesinde boş token bırakmayan Dropless Token Routing ve uzman yük dengesini korumak için uygulanan Load Balancing Loss sayılabilir.

Benchmark Ölçütü Llama-3.2 SmolLM Granite-3.0
Tablo 2. IBM Granite-3.0 MoE 3B modelinin diğer temel LLM’lerle karşılaştırmalı doğruluk performansı.

Granite Guardian: Güvenliğin Öncüsü

Yeni Granite Guardian 3.0 8B ve 2B modelleri, temel Granite modellerinin birer varyantıdır. Bu modeller, çok çeşitli risk ve zarar boyutlarını değerlendirmek ve sınıflandırmak için ince ayar yapılmıştır.

Granite Guardian modelleri, aynı zamanda RAG’e özgü endişeleri değerlendirerek, sonuçların desteklendiği belgelerin yeterliliği, bağlamın uygunluğu ve cevapların alaka düzeyini de ölçmektedir.

Bu model ailesi geliştiricilere dost bir yapıdadır ve Apache 2.0 lisansı altında sunulmaktadır. Ayrıca, IBM Granite Topluluğu’nda yeni geliştirme tarifleri de mevcuttur.

NVIDIA NIM ile Model Dağıtımı

NVIDIA, IBM ile işbirliği yaparak Granite model ailesini, yüksek performanslı AI model çıkarımını güvenli ve güvenilir bir şekilde dağıtmak için tasarlanmış NIM mikroservisleri aracılığıyla sunmaktadır.

NIM, endüstri standartı API’ler ve önceden oluşturulmuş konteynerler kullanarak, talebe göre ölçeklenebilir yüksek throughput AI çıkarım hizmeti sağlamaktadır.

Başlayın!

Granite modellerini ücretsiz NVIDIA bulut kredileriyle deneyimleyin. Modeli ölçekli test edebilir ve uygulamanızı tamamen hızlandırılmış bir yığın üzerinde çalışan NVIDIA-hosted API uç noktasına bağlayarak bir kavram doğrulaması (POC) oluşturabilirsiniz.

Daha fazla bilgi için belgelere göz atın ve modelleri herhangi bir NVIDIA GPU destekli iş istasyonu, veri merkezi veya bulut platformuna dağıtın.

Kaynak

Nvdia Blog

Exit mobile version