SON DAKİKA

Nvdia

“NVIDIA Llama Nemotron Ultra Açık Modeli, Çığır Açan Akıl Yürütme Doğruluğu Sağlıyor”

Yapay zeka (AI) artık sadece metin veya görsel üretimi ile sınırlı değil; aynı zamanda derin akıl yürütme, detaylı problem çözme ve gerçek dünya uygulamalarına güçlü bir şekilde uyum sağlama yeteneğine sahip.

Bugün mevcut olan en yeni Llama Nemotron Ultra akıl yürütme modeli, NVIDIA tarafından sunulmakta ve açık kaynaklı modeller arasında zeka ve kodlama göstergelerinde lider doğruluğuyla öne çıkmakta. Bu modeli, ağırlıklarını ve eğitim verilerini Hugging Face‘te bulabilirsiniz. Böylelikle AI’ı araştırma asistanlarından kodlama yardımcılarına ve otomatik iş akışlarına kadar birçok alanda benimseyebilirsiniz.

NVIDIA Llama Nemotron Ultra, Gelişmiş Bilim, Kodlama ve Matematik Kriterlerinde Başarı Sağlıyor

Llama Nemotron Ultra, bilimsel akıl yürütme ve kodlama ile matematik kriterlerinde AI’nın neler başarabileceğini yeniden tanımlıyor. Karmaşık düşünme, insan merkezli konuşmalar, geri çağırma artırılmış üretim (RAG) ve araç kullanımı için post-eğitim ile geliştirilmiş bu model, gerçek dünya işletme ihtiyaçlarına uygun, bilgi yardımcıları ve otomatik iş akışları gibi kullanımlara yönelik derinlikle tasarlanmış.

Llama Nemotron Ultra, Meta Llama 3.1 üzerine inşa edilmekte ve ticari ile sentetik verilerle, ayrıca gelişmiş eğitim teknikleriyle rafine edilmektedir. Ajanik iş akışları için tasarlanan bu model, güçlü akıl yürütme yetenekleri sunarken, erişilebilir ve yüksek performanslı AI sağlamasıyla dikkat çekiyor. NVIDIA, akıl yürütme model geliştirme sürecini desteklemek için iki yüksek kaliteli eğitim verisini açık kaynak olarak paylaştı.

Bu kaynaklar, topluluğa yüksek performanslı, maliyet verimli modeller inşa etmede avantaj sağlamaktadır. NVIDIA ekibi, @KaggleAI Matematik Olimpiyatı‘nda birinci olarak doğrulanan bu verileri, teknoloji ve içgörüler üzerinden Llama Nemotron Ultra’ya uyguladı. Aşağıdaki bölümlerde bu üç kriterin detaylarına bakalım.

GPQA Diamond Kriteri

Şekil 1, 2 ve 3’te de görüldüğü gibi, Llama Nemotron Ultra akıl yürütme modeli bilimsel akıl yürütme kriterinde diğer açık modelleri geride bırakmakta. GPQA Diamond kriteri, biyoloji, fizik ve kimya gibi alanlarda 198 adet titizlikle hazırlanmış sorudan oluşmaktadır ve bu sorular PhD seviyesindeki uzmanlar tarafından geliştirilmiştir.

Bu lisansüstü seviyedeki problemler, ezberlemek veya yüzeysel çıkarımlarda bulunmaktan çok daha derin bir anlayış ve çok aşamalı akıl yürütme talep etmektedir. PhD sahibi insanların bu zorlu alt kümede ortalama %65 doğruluk oranına sahipken, Llama Nemotron Ultra %76’lık bir başarıyla yeni bir standardı belirlemiştir ve bilimsel akıl yürütmede lider açık model olarak kendini kanıtlamıştır. Bu sonuç, Artificial Analysis ve Vellum liderlik tablolarında yer almaktadır.

Bar chart showing the accuracy scores of leading open-weight models on the Artificial Analysis - GPQA benchmark for evaluating scientific reasoning.
Şekil 1. Artificial Analysis – GPQA kriterinde bilimsel akıl yürütme değerlendirmesi için lider açık ağırlıklı modellerin doğruluk puanları.
Bar chart showing the accuracy scores of leading models on the Artificial Analysis - GPQA benchmark for evaluating scientific reasoning.
Şekil 2. Artificial Analysis – GPQA kriterinde bilimsel akıl yürütme değerlendirmesi için lider modellerin doğruluk puanları.
Bar chart showing the accuracy scores of leading models on the Vellum - GPQA benchmark for evaluating scientific reasoning.
Şekil 3. Vellum – GPQA kriterinde bilimsel akıl yürütme değerlendirmesi için lider modellerin doğruluk puanları.

LiveCodeBench Kriteri

Şekil 4, 5 ve 6’dan da görüldüğü üzere, Llama Nemotron Ultra, LiveCodeBench’de de kayda değer bir başarı sergilemektedir. Bu kriter, gerçek dünya kodlama yeteneklerini değerlendirmek için tasarlanmış kapsamlı bir ölçüttür. LiveCodeBench, kod üretimi, hata ayıklama, kendini onarma, test çıktı tahmini ve yürütme gibi geniş kodlama görevlerine odaklanmaktadır.

LiveCodeBench’deki her problem tarih damgaları ile değerlendirilmektedir, bu sayede adil bir gözlem sağlanmaktadır. Bu ölçüt, gerçek sorun çözümlemeye odaklanarak gerçek bir genelleme test etmektedir. Bu sonuçlar ise Artificial Analysis ve GitHub – LiveCodeBench liderlik tablolarında görüntülenebilmektedir.

Bar chart showing the accuracy scores of leading open-weight models on the Artificial Analysis - LiveCodeBench benchmark for evaluating coding capabilities.
Şekil 4. Artificial Analysis – LiveCodeBench kriterinde kodlama yeteneklerini değerlendirmek için lider açık ağırlıklı modellerin doğruluk puanları.
Bar chart showing the accuracy scores of leading models on the Artificial Analysis - LiveCodeBench benchmark for evaluating coding capabilities.
Şekil 5. Artificial Analysis – LiveCodeBench kriterinde kodlama yeteneklerini değerlendirmek için lider modellerin doğruluk puanları.

AIME Kriteri

Llama Nemotron Ultra, matematiksel akıl yürütme kabiliyetlerini değerlendirmek için sıkça kullanılan AIME kriterinde de diğer açık modellere göre üst sıralarda yer almaktadır. Canlı LLM liderlik tablosuna göz atmayı unutmayın.

Bar chart showing accuracy scores of the leading models on the Vellum - AIME benchmark for evaluating math capabilities.
Şekil 6. Vellum – AIME kriterinde matematik yeteneklerini değerlendirmek için lider modellerin doğruluk puanları.

Açık Veri Setleri ve Araçlar

Llama Nemotron’un en önemli katkılarından biri, açık tasarım felsefesidir. NVIDIA, modeli ve akıl yürütme becerilerini şekillendiren, sektör için faydalı iki temel veri setini piyasaya sürdü ve bunlar Hugging Face Datasets listesinin zirvesinde yer almaktadır.

OpenCodeReasoning Veri Seti: Popüler rekabetçi programlama platformlarından türetilen 28.000 benzersiz soru üzerinden elde edilen 735.000’den fazla Python örneği içermektedir. Bu veri seti, özellikle denetimli ince ayar (SFT) için tasarlanmıştır ve şirket geliştiricilerinin modellerinin ileri düzey akıl yürütme yeteneklerini damıtmasına yardımcı olur. OpenCodeReasoning’dan yararlanarak, organizasyonlar AI sistemlerinin problem çözme becerilerini geliştirebilir, bu da daha sağlam ve zeki kodlama çözümleri elde etmelerini sağlar.

Llama-Nemotron-Post-Training Veri Seti: Kamuya açık ve açık modelleri, Llama, Nemotron ailesi, Qwen ailesi ve DeepSeek-R1 modellerini içeren sentetik olarak üretilmiştir. Anahtar akıl yürütme görevleri üzerinde bir modelin performansını artırmak amacıyla tasarlanmıştır ve matematik, kodlama, genel akıl yürütme ve talimat takibi gibi becerilerin geliştirilmesine yardımcı olmak için idealdir. Geliştiricilerin karmaşık, çok aşamalı talimatları daha iyi anlama ve yanıt verme yeteneklerini geliştirmek için bu veri seti, daha yetkin ve uyumlu yapay zeka sistemleri oluşturmasına olanak tanır.

NVIDIA, bu veri setlerini Hugging Face üzerinde ücretsiz olarak sunarak akıl yürütme modellerinin eğitimini demokratikleştirmeyi hedeflemektedir. Startuplar, araştırma laboratuvarları ve işletmeler artık NVIDIA iç ekiplerinin kullandığı kaynaklara erişebilir ve ajanik AI olan, karmaşık iş akışlarında bağımsız olarak akıl yürütme, planlama ve eylem gerçekleştirebilen AI’nın daha geniş çapta benimsenmesini hızlandırabilirler.

Kurumsal Uygun Özellikler: Hız, Doğruluk ve Esneklik

Llama Nemotron Ultra, ticari olarak uygulanabilir bir modeldir ve kodlama yardımcıları, müşteri hizmeti chatbotları, otonom araştırma ajanları ve görev odaklı asistanlar gibi çok çeşitli ajanik AI kullanım alanlarında kullanılabilir. Bilimsel akıl yürütme ve kodlama kriterlerinde sağladığı güçlü performans, doğruluk, uyumluluk ve çok aşamalı problem çözme gerektiren gerçek dünya uygulamaları için güçlü bir temel oluşturmaktadır.

Llama Nemotron Ultra, en iyi sınıf model doğruluğu sunarken, açık akıl yürütme model sınıfında lider çıkış oranı sağlamaktadır. Verimliliği (çıkış oranı) doğrudan tasarruf ile ilişkilendirilmekte. Beyin Mimari Arama (NAS) yaklaşımını kullanarak, modelin bellek izini büyük ölçüde azaltıyoruz ancak performansını koruyoruz, bu da veri merkezi ortamında daha büyük iş yükleri ve daha az GPU ile çalıştırmaya olanak tanıyor.

Chart entitled, "World's Highest Reasoning Accuracies and Throughput for Agentic AI" showing Llama Nemotron Ultra delivers 4x throughput.
Şekil 7. Llama Nemotron Ultra, mükemmel doğruluk ve inanılmaz akış sunmaktadır.

Bu süreçten sonra, model, akıl yürütme ve akıl yürütme dışı görevlerde başarılı olmasını sağlamak üzere denetimli ince ayar ve pekiştirmeli öğrenme (RL) dahil olmak üzere kapsamlı bir post-eğitim sürecine tabi tutulmuştur. Model, kurumsal gereksinimler doğrultusunda akıl yürütme işlevini yalnızca gerektiğinde etkinleştirerek, daha basit, ajanik olmayan görevlerde ek yükü azalmasına olanak tanıyan bir destek sunmaktadır.

Başlayın

NVIDIA, Llama Nemotron Ultra’yı yüksek çıkış oranı ve düşük gecikme için optimize edilmiş bir NVIDIA NIM inference mikroservisi olarak paketlemiştir. NVIDIA NIM, endüstri standartı API’leri kullanarak, yerel veya bulut üzerinde kesintisiz, ölçeklenebilir AI çıkarımı sağlar.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri