Gelişmiş Açık Sonrası Eğitim Verileriyle Özel Akıl Yürütme Modelleri Oluşturma

Sentetik Verinin Rolü

Sentetik veri, büyük dil modellerinin (LLM) son eğitim süreçlerinde standart bir parça haline geldi. Bir grup açık kaynak, ticari olarak kullanılabilir LLM’den elde edilen çok sayıda sentetik örnek kullanılarak, temel bir LLM, güçlendirilmiş eğitim ya da denetimli ince ayar ile yeniden eğitilerek talimat alma ve akıl yürütme becerilerini kazanıyor. Bu süreç, bir grup LLM öğretmeninden bir hedef LLM öğrencisine bilgi aktarımı olarak görülebilir.

NVIDIA’nın Yeni Veri Seti

NVIDIA, Llama-Nemotron post-training veri setini açık kaynak olarak yayınladı. Bu veri seti, matematik, kod, genel akıl yürütme, işlev çağırma ve talimat takibi yeteneklerinde iyileşmelere destek olan 30 milyon sentetik eğitim örneği içermektedir. Kanıt olarak, NVIDIA bu veri setini kullanarak üç model eğitti ve yayımladı:

Her bir model, ilgili ağırlık sınıflarında akıl yürütme ve görev alma konularında önde gelen bir doğruluk sunmaktadır.

Açık Veri ve Şeffaflık

Bu veri setinin yayınlanması, model geliştirme ve iyileştirme konusunda önemli bir adımı temsil ediyor. Eğitim setinin tamamını, eğitim tekniğini, araçları ve son model ağırlıklarını serbest bırakarak, NVIDIA, bu yaklaşımı yeniden oluşturma ve geliştirme imkanı sunuyor. Veri setleri, Hugging Face platformunda barındırılmaktadır.

Veri Kategorileri

Llama-Nemotron veri seti yaklaşık 30 milyon örnekten oluşmakta ve şu geniş kategorilere dağıtılmıştır:

Kategori	Örnek Sayısı
Matematik	19,840,970 (~1M eşsiz istem)
Kod	9,612,677
Bilim	708,920
Talimat takibi	56,339
Sohbet	39,792
Güvenlik	31,426

Tablo 1. Veri seti kategorileri ve örnek sayıları

Bu örnekler, açık kaynak, ticari olarak kullanılabilir modellerden toplanmıştır.

Model	Örnek Sayısı
Llama-3.3-70B-Instruct	420,021
Llama-3.1-Nemotron-70B-Instruct	31,218
Llama-3.3-Nemotron-70B-Feedback/Edit/Select	22,644
Mixtral-8x22B-Instruct-v0.1	31,426
DeepSeek-R1	1,212,994
Qwen-2.5-Math-7B-Instruct	19,840,970
Qwen-2.5-Coder-32B-Instruct	8,917,167
Qwen-2.5-72B-Instruct	464,658
Qwen-2.5-32B-Instruct	71,748

Tablo 2. Kaynak modeller ve örnek sayıları

İstemler, ya halk arasındaki verilerden ya da sentetik olarak üretilmiştir. İstemler kalite ve karmaşıklık standartlarına uygun hale getirilmiştir. Bu filtremeler, tutarsız istemleri çıkarmak, tahmin edilmesi kolay yanıtlar içeren istemleri elemek ve yanlış sözdizimi içeren istemleri bertaraf etmeyi kapsamaktadır.

Sohbet Verileri ve Süreçleri

Sohbet verileri, kamuya açık gerçek kullanıcı etkileşimlerinden (wildchat) ve sentetik veri üretim şemasından elde edilmiştir. Sentetik istemler, açık QA, kapalı QA ve yaratıcı yazım gibi çeşitli görevleri kapsamaktadır. Her bir istem görevi için, LLM üretiminde farklı tema veya anahtar kelimelerle çeşitlendirilmiş bir set kullanılmıştır. Yanıtlar için, LLM’lere birden fazla üretim yaptırılmış ve sonra Llama-3.1-Nemotron-70B ödül modeli ile eleme yapılmıştır. Bu, yanıtların yüksek kalitede olmasını sağladı.

Llama-Nemotron 30M veri setini oluşturmak için, Llama-3.3-70B-instruct ve DeepSeek R1 modelleri yanıt üretici olarak kullanılmıştır (Şekil 1).

The workflow diagram shows a user with a domain-specific input query that goes through a public LLM as a synthetic response generator and a reward model to score the responses. The end result, after the synthetic response data is filtered, is a synthetic dataset. — *Şekil 1. Sohbet veri kürasyon süreci*

Bu sohbet veri toplama sürecini yeniden oluşturmak için /NVIDIA/NeMo-Curator eğitim not defterine başvurabilirsiniz.

Matematik Verilerini Oluşturma

Veri setinin matematik odaklı kısmını oluşturmak için Problem Çözme Sanatı forumlarından kapsamlı bir yöntem geliştirdik.

Bu yaklaşım birkaç aşamadan oluşmaktadır ve genellikle Qwen2.5-32B-Instruct modeli kullanılmaktadır:

Problemlerin çıkarılması: İlk forum gönderilerinden tüm problemleri tanımlamak ve çıkarmak için bir LLM’den yardım aldık. Çoğu gönderide tek bir problem bulunmasına rağmen, bazıları birden fazla problem içerebilir.
Problem sınıflandırması: Her çıkarılan problem, ispat veya ispat olmayan ve çoktan seçmeli ya da çoktan seçmeli olmayan kategorilere ayrıldı.
Soru dönüştürme: İspat soruları, benzer problem çözme teknikleri gerektiren cevaplı sorulara dönüştürüldü. Çoktan seçmeli sorular, seçenekler kaldırılarak ve gerekirse yeniden formüle edilerek doğrudan cevap sorularına dönüştürüldü.
Cevap çıkarma: İspat sorusu olmayanlar için, forum tartışmalarından son cevabı çıkarmaya çalıştık.
Benchmark Temizleme: Popüler matematik standartlarında benzer soruları olanları kaldırarak, verilerin incelenmesinde adil bir değerlendirme sağladık.
Çözüm Üretimi: Her soru için, birçok açık kaynak LLM kullanarak çoklu çözümler ürettik.
Çözüm Validasyonu: Yalnızca doğruluğu kanıtlanmış ya da çoğunluk oylaması ile uyumlu olan çözümleri seçiyoruz.

Bu yöntem, /NVIDIA/NeMo-Skills altında uygulanmaktadır. Bu araç seti başlangıçta matematik problemlerini çözme yeteneğine odaklanmıştı, ancak şu anda herhangi bir LLM tabanlı sentetik veri üretim görevine destek sağlayabilir.

Kod Verileri İçin Süreç Geliştirmek

Kod üretimi için denetimli ince ayar veri setini oluşturmak amacıyla, kamuya açık programlama soruları CodeContests veri setinden alındı. Yaklaşımlarımız birkaç ana aşamadan oluşmaktadır:

Benchmark Temizleme: Popüler kod standartlarına (HumanEval, MBPP, LiveCodeBench, BigCodeBench) yakın soruları kaldırdık.
Yanıt Oluşturma: Programlama soruları için DeepSeek-R1 modelini kullandık ve her bir soru için 32-40 yanıt ürettik.
Akıl Yürütme İzleri ve Çözüm Validasyonu: Tam akıl yürütme izlerini içeren yanıtlara öncelik verdik ve çözümleri sözdizimsel olarak doğruladık.

Matematik verileri gibi, kod verisi de /NVIDIA/NeMo-Skills kullanılarak hazırlanmıştır.

Modellerinizi Eğitmeye Başlayın

Llama-Nemotron veri setinin açık bırakılması, NVIDIA’nın açık kaynak yapay zeka geliştirme konusundaki kararlılığını pekiştiriyor. Açık kaynak topluluğunun bu yaklaşımı benimsemesini ve geliştirmesini umuyoruz. Gerekli eğitim veri setlerini Meta’nın Wildflower platformundan veya Hugging Face üzerinden indirerek, kendi akıl yürütme modellerinizi oluşturabilir ya da ince ayar yapabilirsiniz.

Bu süreçleri yeniden üreterek verileri kendi uygulamanız için küratör ile düzenleyebilir, ardından NeMo framework veya NeMo Özelleştirici mikro hizmeti ile modeli ince ayar yapabilirsiniz.