SON DAKİKA

Nvdia

“NVIDIA NeMo ile Bir Hafta Sonunda Akıl Yürütme Yetenekli Bir LLM Eğitimi”

Kendi akıl yürütme modelinizi oluşturmayı hiç istemiş miydiniz, ama bunun çok karmaşık veya fazla kaynak gerektirdiğini mi düşündünüz? Yeniden düşünün. NVIDIA’nın güçlü araçları ve veri setleriyle, yalnızca 48 saat içinde, tek bir GPU üzerinde küçük ama etkili bir akıl yürütme modeli eğitebilirsiniz. Daha da iyisi, hemen başlamanız için size tüm kodu sağladık.

Hadi derinlemesine bakalım.

Hızlı Bağlantılar: Dataset ve Kodlar

Akıl Yürütme Modelleri ve Test Zamanı Hesabı

Akıl yürütme (ya da düşünme) dil modellerinin ortaya çıkması, dönüşümsel bir etki yaratmıştır. Test zamanı hesaplama ölçek yasalarını kullanarak, modelin son cevabı üretmeden önce sorun üzerinde çeşitli yönlerden derinlemesine düşünmesi için daha fazla zaman harcanmaktadır. Bu, matematik ve kodlama gibi derin kritik düşünme ve akıl yürütme gerektiren görevlerde son derece yetenekli olmalarını sağlıyor. Bu gelişme, dil modellerinin çeşitli ayarlarda nasıl eğitildiği ve kullanıldığı konusunda bir paradigma kayması anlamına geliyor.

NVIDIA, Llama Nemotron açık model ailesi ile bu ilerlemenin öncüsü olmuştur; bu modeller geniş bir görev yelpazesindeki yüksek performanslı akıl yürütme için tasarlanmıştır. Bu modeller hakkında daha fazla bilgi edinmek için bu blog yazısını inceleyin. Bu blogda tartışılan ilkeler, ServiceNow’un Apriel Nemotron 15B gibi diğer önde gelen modellere de uygulanabilir; bu da akıl yürütme modellerinin kurumsal problem alanlarındaki daha geniş önemini vurgular. Bu model hakkında daha fazla bilgi almak için bu blog yazısını inceleyebilirsiniz.

“Akıl Yürütme Kapalı”dan “Akıl Yürütme Açık”a: Kontrol Edilebilir Akıl Yürütme Modları

Llama Nemotron modellerinin en önemli yeniliklerinden biri, kullanıcıların, sistem isteminde basit bir talimatla standart sohbet (“akıl yürütme kapalı”) ve ileri düzey akıl yürütme (“akıl yürütme açık”) modları arasında geçiş yapmalarına olanak tanıyan dinamik akıl yürütme geçişidir. Bu esneklik, karmaşık görevler için derin akıl yürütme yeteneklerini devreye sokarken daha basit etkileşimler için hafif bir moda geri dönerek kaynakların daha iyi kullanılmasını sağlar.

Açık Post-Eğitim Veri Setimiz

Geliştirici topluluğunu güçlendirmek için, NVIDIA, Llama Nemotron modellerinin post-eğitim sürecinde kullanılan verilerin önemli bir kısmını açık kaynak olarak sunmuştur. Llama Nemotron Post-Training Dataset, 32 milyonun üzerinde örnek içermekte olup, matematik, kodlama, sohbet ve bilimler gibi alanlarda kullanılmaktadır. Bu veri seti, uygulayıcıların kendi akıl yürütme modellerini eğitmeleri için bir temel sağlar. Bu veri seti, modelin akıl yürütme modunu kontrol etmeyi öğrenmesi için kritik öneme sahiptir; bu da Llama Nemotron’un yeteneklerine benzer.

Bu blog yazısında, kendi akıl yürütme dil modelinizi bir hafta sonu içinde nasıl eğitebileceğinizi, Llama Nemotron Post-Training Dataset, NVIDIA NeMo Curator ve NVIDIA NeMo Framework kullanarak nasıl bu süreci gerçekleştirebileceğinizi keşfedeceğiz.

Llama Nemotron Post-Training Veri Setinin Anatomisi

Llama Nemotron Post-Training Dataset, LLM’lerin akıl yürütme yeteneklerini artırmak için titizlikle sentezlenmiştir. Denetimli ince ayar (SFT) veya pekiştirmeli öğrenme (RL) için ayrı alt setler halinde düzenlenmiş olup, çeşitli problem alanlarından örnekler içermektedir. Bu yazının yazıldığı zamandaki örneklerin dağılımına dair aşağıda bir döküm bulabilirsiniz.

Kategori Örnek Sayısı
Matematik 22,066,397
Kodlama 10,108,883
Bilim 708,920
İfade Takibi 56,339
Sohbet 39,792
Güvenlik 31,426
Toplam Örnek Sayısı 32,011,757
Tablo 1. Llama Nemotron post-training veri setinin örnek kategorisi ve dağılımı.

Bu veri setindeki tüm örnekler JSON satırları (JSONL) formatında olup, lisans türü, kaynak model gibi meta veriler ile birlikte, Llama Nemotron modeli(leri) ile eğitilen örnekleri içermektedir. Her bir örnek, bir isteme eşlik eden beklenen bir yanıtın yanı sıra, detaylı düşünme (CoT) izlerini takip eden yanıtlar (yani “akıl yürütme açık”) ve doğrudan yanıtlar (yani “akıl yürütme kapalı”) ile birlikte gelmektedir. Daha somut olarak, her bir örnekte şu özellikler bulunmaktadır:

  • input: modele gönderilen (çoklu tur sohbet tamamlama mesaj formatında) istem. Her zaman user rolüyle başlayan bir mesaj, sıfır veya daha fazla tur ve sonunda assistant rolüyle bir mesaj ile sonlanır, örneğin:
[
  {"role": "user", "content": "Pisagor teoremini anlamama yardım eder misin?"},
  {"role": "assistant", "content": "Pisagor teoremi, şunu belirtir… Anlayabiliyor musun?"},
  {"role": "user", "content": "Evet, ama bir takip sorum var…."},

  #
  # ...(sıfır veya daha fazla mesaj),
  #

  {"role": "assistant", "content": "Tabii ki, yardım etmekten mutluluk duyarım!"},
]
  • output: modelin beklenen yanıtı (doğru cevap), örneğin:
Pisagor teoremi, bir dik üçgende, hipotenüsün karesinin, diğer iki kenarın karelerinin toplamına eşit olduğunu belirtir: a² + b² = c².
  • reasoning: örneğin akıl yürütme “açık” modunda olup olmadığı.
    • Eğer değer “on” ise, çıktı, <think></think> içinde kodlanmış detaylı bir CoT izini içerir, ardından çıktı gelir; örneğin:
<think>
Hmm, kullanıcı Pisagor teoremi hakkında soruyor. Eğer doğru hatırlıyorsam...
</think>

Pisagor teoremi, bir dik üçgende, hipotenüsün karesinin, diğer iki kenarın karelerinin toplamına eşit olduğunu belirtir: a² + b² = c².
  • Değer “off” olduğunda, çıktı herhangi bir düşünme izini içermez ve bunun yerine doğrudan bir yanıt içerir.
  • system_prompt: sistemin akıl yürütme modunu kontrol etmek için (önerilen) sistem istemi. Llama Nemotron eğitimi için sistem istemi her zaman ya “detailed thinking on” ya da “detailed thinking off” şeklindedir. Bu alan, “reasoning” alanındaki değerle (ve tersine) bağlantılıdır.
  • category: örnek kategorisi, örneğin matematik, kodlama, bilim, talimat takip, sohbet veya güvenlik.
  • license: o örneğe ait lisans bilgisi.
  • generator: örneği sentezlemek için kullanılan jeneratör modeli, örneğin DeepSeek-R1 vb.
  • used_in_training: bu örneğin hangi Llama Nemotron modelleri için eğitimde kullanıldığı. Örneğin, [“Ultra”, “Nano”] değeri, bu örneğin Llama Nemotron Nano ve Ultra’nın eğitimi için kullanıldığını, ancak Super için kullanılmadığını gösterir.
  • version: her bir örneğe ait bir sürüm etiketi. Veri setine zamanla yeni örnekler eklendiğinden, belirli bir örneğin ne zaman eklendiğini tanımlamak için bu sürüm etiketi kullanılır.

Sıfırdan Akıl Yürütmeye 3 Kolay Adım

Küçük bir akıl yürütme modeli eğitmek için kullandığımız bir eğitim ve veri düzenleme tarifini gözden geçirelim. Llama Nemotron Post-Training veri setini kullanarak, yukarıda bahsettiğimiz gibi kontrol edilebilir akıl yürütmeyi öğrenmesi için modelinizi eğiteceğiz.

Kendi akıl yürütme modelinizi eğitmek genellikle veri düzenleme, ince ayar ve değerlendirme süreçlerini içerir. bu bölümde, tek bir GPU üzerinde yalnızca 48 saat içinde modelinizi eğitebileceğiniz kanıtlanmış bir tarife ele alacağız. Tarife, akıl yürütme yeteneklerini kazandırmak için denetimli ince ayar (SFT) kullanmaktadır. Pekiştirmeli öğrenme (RL) de bir seçenek olsa da, son çalışmalar çok geçişli bir yaklaşımın (yani SFT’nin ardından RL) en iyi sonuçları verdiğini öne sürüyor.

Dikkate Alınması Gerekenler

  • Veri seti kompozisyonu: Llama Nemotron Post-Training veri seti oldukça büyük, bu yüzden akıl yürütmeyi vurgulayan odaklanmış bir alt küme oluşturmanız gerekecek. Gerçek dünya kullanımı için, belirli görevlerinize yakın örnekleri önceliklendirin ve kendi alanınıza özgü örnekler ile takviye etmeyi düşünün.
  • Temel model seçimi: Zaman ve hesaplama kısıtlamaları dikkate alındığında, küçük modellere akıl yürütme öğretmek zordur, bu yüzden temel model seçimi son derece kritik. En az 8B parametreye sahip modellerle başlamanızı öneriyoruz. Bizim kullandığımız Llama 3.1 8B Instruct modeli oldukça iyi sonuçlar verdi.
  • İnce ayar tekniği: 8 milyar parametreye sahip bir modelin tüm ağırlıklarını tam olarak ince ayar yapmak en az 8 GPU, agresif bellek optimizasyon teknikleri ve oldukça fazla zaman gerektirir! Ancak, parametre verimliliğine dayalı ince ayar (PEFT) yöntemiyle karşılaştırılabilir sonuçlar gözlemledik. Aslında, 8 milyar parametreli bir modeli tek bir NVIDIA H100 GPU üzerinde 48 saat içinde fine-tune yapabilirsiniz.
  • Değerlendirme: İnce ayar sonrası, modelinizi standart benchmark’lar kullanarak değerlendirin ve performansını orijinal temel model ile karşılaştırarak iyileştirmeyi değerlendirin.

Adım 1: NVIDIA NeMo Curator ile Veri İşleme

Yüksek kaliteli veri, güçlü bir akıl yürütme modelinin temel taşıdır. Llama Nemotron Post-Training veri setini alt kümelemek için birçok yol vardır, ancak matematik ve sohbet alt setleri ile başlamanızı öneriyoruz çünkü bu setler alan-agnostik akıl yürütme konusunda güçlü örnekler içermektedir.

İyi sonuçlar elde etmek için, en az 500,000 örnek ve “akıl yürütme açık” ve “akıl yürütme kapalı” örneklerin dengeli bir karışımını içeren bir veri işleme hattı öneriyoruz. İşte önerilen bir filtreleme ve işleme yaklaşımı:

  1. Uygun küçük alt küme seçimi
    1. Llama Nemotron Nano örneklerini kullanın: Bu yüksek kaliteli, önceden kontrol edilmiş örneklerle Llama Nemotron Nano eğitimi yapmanıza yardımcı olabilirsiniz.
    2. Önemli alt setleri seçin: Güçlü, alan agnostik akıl yürütme için yalnızca math_v1.1 ve chat alt setlerini seçin.
    3. Dilleri filtreleyin: Veri setinin tutarlılığını sağlamak için, dil tespiti ile tüm İngilizce olmayan örnekleri ortadan kaldırın.
  2. Örnekleri filtreleyin
    1. Yanıt formatını zorunlu kılın: Nihai yanıtı içermeyen matematik örneklerini elden çıkarın, bu yanıtların LaTeX boxed{} formatında olması gerekmektedir.
    2. Reddetme örneklerini hariç tutun: Düşünme modu etkin olan ancak boş olan <think></think> etiketine sahip örnekleri hariç tutun. Bunlar genellikle ek güvenlik eğitimi için gerekli olan reddetme örnekleridir, ancak basitlik açısından bunları atlayabiliriz.
    3. Örnek uzunluğunu sınırlayın: Belirli bir token sınırını (örneğin, 8k veya 16k, tokenizer‘ın sohbet şablonunu uyguladıktan sonra) aşan örnekleri filtreleyin.
  3. Bir sohbet şablonu uygulayın: Tüm eğitim örneklerini tutarlı bir sohbet tarzı şablonuyla biçimlendirin (örneğin, sistem/kullanıcı/asistan rolleri). Bu, sohbet şablonları ile eğitilmiş talimat izleyen modeller için gereklidir ve modelin daha iyi genellemesini sağlamaktadır.
  4. Akıl yürütme modu için sistem istemi: “Akıl yürütme etkin” durumu sinyalleri ekleyin. Llama Nemotron modelleri, bu davranışı kontrol etmek için “detailed thinking on” veya “detailed thinking off” gibi ifadeler kullanmaktadır.
  1. Öğrenme müfredatını kullanın: Örnekleri güçlük düzeyine göre sıralayın. Tamamlama token sayısını örneklerin zorluğu için bir ölçüt olarak kullanabilirsiniz. Farklı şemalar denemekten çekinmeyin.
    1. Verilerinizi “akıl yürütme açık” ve “akıl yürütme kapalı” kısımlarına ayırın.
    2. Her bir kümeyi artan tamamlama uzunluğu (zorluk göstergesi olarak) kullanarak sıralayın.
    3. Her iki kümeden örnekleri bir araya getirerek karmaşıklığı kademeli olarak sunun.

Bu hatları NVIDIA NeMo Curator kullanarak verimli bir şekilde uygulayabilirsiniz. Başlamak için size yardımcı olabilecek basit ve anlaşılır bir iş akışı GitHub’da yayınladık. Modest donanımlarda bile yerel olarak çalışır, hatta GPU olmadan bile. Kod burada olarak bulunmaktadır.

NeMo Curator iş akışı, filtreleme süreçlerini hızlandırmak için kullanılabilir. Verilerinizi hızlı bir şekilde işlemek için gereken birçok kolaylığı içermektedir. Aşağıda, yukarıda verdiğimiz tavsiyelere dayalı bazı komutlar bulabilirsiniz.

Veri setini Hugging Face’den alın (yaklaşık 130GB disk alanı gerektirir):

$ git lfs install
$ git clone https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

Ayrıca bir FastText dil tanımlama modelini edinin:

$ wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.ftz -P ./

8 işçi ile veri düzenleme hattını başlatın:

$ python main.py 
    --input-dir "/path/to/Llama-Nemotron-Post-Training-Dataset/SFT" 
    --remove-columns "version" "license" "generator" "category" "used_in_training" "system_prompt" "reasoning" 
    --filename-filter "chat" "math_v1.1" 
    --tokenizer "meta-llama/Llama-3.1-8B-Instruct" 
    --lang-id-model-path "/path/to/lid.176.ftz" 
    --max-token-count 8192 
    --max-completion-token-count 16384 
    --output-dir "/path/to/curated-data" 
    --json-blocksize "100mb" 
    --n-workers 8 
    --device "cpu"

Yukarıdaki işlem tamamlandığında, düzenlenmiş veri seti belirtilen çıktı yoluna kaydedilecektir. Çıktılar, büyük giriş veri setinin daha küçük parçalara ayrıldığı biçimde çoklu JSONL dosyaları şeklinde yazılacaktır; bu sayede her bir parça paralel olarak işlenebilir.

Her bir JSONL dosyası input/output formatında olacaktır. Dosyadaki her kaydın input alanı, modelin girdiği istemleri, yani sistem istemi ve kullanıcı mesajlarını (belirtilen tokenizer ile sohbet şablonu dönüşümünden sonra) içermekte, output alanı ise modelin beklenen yanıtını, herhangi bir özel token ile birlikte (örneğin, tamamlama veya cümle sonu tokenleri gibi) içerecektir.

Farklı parçaları tek bir JSONL dosyasında birleştirmek için aşağıdaki komutu çalıştırın:

$ find /path/to/curated-data -type f -name "*.jsonl" -size +0c -print0 | xargs -0 cat | awk 'NF' > training.jsonl

Bu, yaklaşık 1.7 milyon örnek içeren training.jsonl adında tek bir JSONL dosyası oluşturacaktır. Bu dosyayı doğrudan NVIDIA NeMo Framework eğitim betikleri ile kullanabilirsiniz.

Adım 2: Eğitim

3B’den 8B parametreye kadar olan temel modeller üzerinde deneme yaptık ve LoRA’dan 16 ile 128 arasındaki sıralar arasında çeşitli karşılaştırmalar yürüttük. Tutarlı bir akıl yürütme performansı sağlayan en küçük model Llama 3.1 8B Instruct oldu; LoRA sırası 64 ise mükemmel bir nokta olarak belirlendi.

Başarılı eğitimin temel etmenleri şunlardı:

  • Hızlı bir yakınsama elde etmek için yüksek öğrenme hızı kullanımı.
  • Zorluk derecesi artan örnekler kullanarak müfredat öğrenimi; bu, istikrar ve nihai performansı önemli ölçüde artırdı.
  • Ayrıca en az 256’lık bir batch boyutu.

Tüm eğitim hiperparametreleri aşağıdaki tabloda özetlenmiştir:

Hiperparametre Değer
LoRA
   Sıra 64
   Alpha 128
Öğrenme Oranı 0.0001
   Planlayıcı Kozin
   Isınma adımları Toplam eğitim adımlarının %5’i
   Ağırlık çürümesi 0.001
Batch Boyutu 256 (gradient accumulation ile)
Eğitim için Adımlar En az 2,000 adım
Tablo 2. Eğitim hiperparametreleri

Modelimizi yaklaşık 30 saat boyunca tek bir NVIDIA H100 80GB GPU üzerinde eğittik. Önemli bir not olarak, net bir akıl yürütme davranışı, eğitim sürecinin yalnızca ~13 saatinde (yaklaşık 100,000 ile 130,000 örnek arasında adım atıldığında) ortaya çıkmaya başladı.

Eğer 80GB’den daha düşük bellek kapasitesine sahip bir GPU’ya sahipseniz, on device batch boyutunu azaltabilir ve gradient accumulation adımlarını artırarak daha büyük bir etkin batch boyutu elde edebilirsiniz.

GitHub üzerinde, yukarıda bahsettiğimiz eğitim işlemini uygun hiperparametrelerle ayarlayan bir Jupyter defteri hazırladık. Bu defter, modelinizi ince ayar yapmanız için gereken çeşitli ayarları adım adım göstermektedir. Ayrıca tam model ince ayarı gerçekleştirmenizi sağlayacak seçenekler sunmaktadır.

benchmark showing the loss and learning rate scheduler for training.
Şekil 1. Eğitim süreçlerine ait kayıp ve öğrenme oranı planlayıcılarının grafik gösterimi.

Referans olarak, karmaşık bir akıllı model oluştururken, kayıp grafikleri Llama Nemotron’un ilk 500,000 eğitim örneği ile LoRA adaptörü 64 sıralaması kullanılarak yapılan ince ayar deneylerinden elde edilmiştir. Her biri 256’lık bir batch boyutuyla 2,000 eğitim adımı elde edilmiştir.

Son zeminde kayıptaki ani düşüşün nedeninin ne olduğunu merak ediyorsanız, bunun beklenildiği gibi olduğunu belirtmek isteriz. Çünkü düzenlenmiş veri setimiz, müfredat öğrenimi için zorluk düzeyine göre sıralanmıştır. 500,000 eğitim örneği ile 256’lık bir batch boyutu ve 2,000 adımda, bu eğitim süreci sadece bir döngüden fazlaydı. Eğitimin sonunda, modeliniz daha önce gördüğü birkaç (daha kolay) örneği tekrar tekrar gördüğünde, doğru işaretleme yapabildiğinden dolayı kayıp değerinin çok daha düşük olduğunu göreceksiniz.

Adım 3: Değerlendirme

Eğitimin ardından, modelin akıl yürütme yeteneklerinin öğrenildiğini doğrulamak için değerlendirme yapmak önemlidir. Şu önerileri dikkate almanızı tavsiye ederiz:

  • Temel model ile karşılaştırma yapın: Gelişmiş akıl yürütme görevlerinde yan yana karşılaştırmalar yaparak iyileşmeyi değerlendirin.
  • Standart ve alan özelinde değerlendirmeler:
    • MMLU, GPQA Diamond, GPQA Main veya OpenBookQA gibi veri setlerinde değerlendirme yaparak modelin genel yeteneklerini gözlemleyin.
    • Alanınıza özel verilere karşı değerlendirme yaparak, üretim ortamındaki model davranışına dair net bir içgörü elde edin.
  • Manuel denetleme: Hem “akıl yürütme açık” hem de “akıl yürütme kapalı” modlarına ait örnek çıktıları alarak kontrol edilebilirlik ve tutarlılığı doğrulayın. Sohbet şablonları ve sistem istemlerinin doğru şekilde kurulduğundan emin olun.

Yukarıdaki üç öneri hakkında daha derinlemesine bilgi edinmek ve eğitimden elde edilen modelin performansını görmek için hazırlanmış olan istatistikleri inceleyelim.

Modelinizin temel model ile MMLU, GPQA Diamond ve GPQA ana veri setleri üzerindeki karşılaştırmasını gözlemleyebilmeniz için, bu süreçleri yürüten scriptleri de hazırladık. Bu scriptler, veri seti indirme ve hazırlama, model dağıtma ve ilgili karşılaştırmaları yürütme gibi adımları sergilemektedir.

Değerlendirmenin ilk adımı, model değerlendirmesi için veri setinin hazırlanmasıdır. MMLU, GPQA Diamond ve GPQA ana veri setlerini Hugging Face’den indirip, verileri çoktan seçmeli yanıt alternatiflerinden (örneğin “A”, “B”, “C”, “D”) en uygun olanını çıkartarak yeniden düzenleyeceğiz.

Sonra modelimizi değerlendirirken eğitimli adaptör ile temel modelin yanında karşılaştırmasını yapacağız. Bu adımda sunucuyu başlatıp, modellerimizi Triton Inference Server kullanarak dağıtacağız. Bu sunucu, OpenAI API’leri son noktalarını sunmaktadır. /v1/chat/completions/ son noktası, model ile çok turlu sohbet etkileşimlerine olanak tanır. Bu son nokta, kullanıcı, asistan ve sistem gibi farklı rollerin yer aldığı bir mesaj listesi kabul ederek bağlam ve yanıtları yönlendirebilmektedir. Arka planda, bir sohbet şablonu, konuşmayı tek bir girdi dizisine dönüştürmektedir.

“Akıl yürütme açık” yönünde eğitimli modelimizi dağıttığımızda kullanabileceğimiz bir sohbet şablonu aşağıdaki gibi olmalıdır:

chat_payload = {
        "messages": [{"role": "system", "content": "akıl yürütme açık"}, {"role": "user", "content": prompt}],
        "model": model_name,
        "max_tokens": 20000,
    }

Aynı şekilde “akıl yürütme kapalı” modu için de aşağıdaki sohbet şablonunu kullanabilirsiniz:

chat_payload = {
        "messages": [{"role": "system", "content": "akıl yürütme kapalı"}, {"role": "user", "content": prompt}],
        "model": model_name,
        "max_tokens": 20000,
    }

max_tokens, girdi, sistem istemi ve modelin yanıtı için gereken tokenleri dikkate alır.

Son olarak, kesin cevapları çıkartarak eğitimli adaptör ile temel modelin yanıtlarını karşılaştırır ve bu yanıtların doğruluğunu hesaplarız.

Yukarıda tarif edilen süreçsel adımlar neticesinde elde ettiğimiz değerlendirme sonuçları, temel model ile eğitimli adaptör arasında yapılan karşılaştırmalar olarak öne çıkmaktadır:

benchamrk of evaluation results when we compared the base model versus the trained adapter
Şekil 2. Eğitimli LoRA adaptörü ve temel instruct modelin GPQA ve MMLU benchmark’larındaki değerlendirmesi.

Bu sonuçlar, yalnızca 48 saat boyunca tek bir GPU üzerinde yapılan sınırlı bir eğitim sürecinin ardından, eğitimli LoRA adaptörünün baz instruct model üzerinde farklı benchmark’larda %10’a kadar daha iyi sonuçlar verdiğini göstermekte. Bu sonuçlar üzerinde daha fazla eğitim veri seti ile daha fazla eğitimin, daha güçlü akıl yürütme modelleri geliştireceğine dair LLM ölçeği kanunları önermektedir. Eğer bir hizmet mikroservisi kullanmak isterseniz, NVIDIA NeMo Evaluator mikroservisine göz atabilirsiniz. Bu mikroservis, nesil AI uygulamalarının uçtan uca değerlendirmesini basitleştirir ve akıl yürütme, kodlama ve talimat izleme gibi bir dizi özelleştirilmiş görev ve alan için kapsamlı bir benchmark ve metrikler paketi sunar.

Sonuç ve Sonraki Adımlar

Bu blogda, Llama Nemotron Post-Training Veri Setine dayanarak küçük miktarlarda verilerle akıl yürütme modelleri eğitmek için basit ve hesaplama açısından verimli bir tarif sunduk. Akıl yürütme yetenekleri kazandırmanın temel hususlarını ve başarılı bir şekilde küçük bir dil modeline akıl yürütmeyi öğretmek için gereken hiperparametreleri vurguladık. Değerlendirme sonuçlarında, eğitimli LoRA adaptörümüzün GPQA ve MMLU veri setlerinde baz instruct modelden önemli ölçüde daha iyi performans gösterdiğini göstermiş bulunmaktayız.

Modelimiz yalnızca matematik ve sohbet verileri üzerinde eğitim aldığından, akıl yürütme yetenekleri genel bir yapıdadır. Alanınıza özgü veriler ekleyerek, uygulamanız veya iş ihtiyaçlarınızla ilgili konularda uzmanlaşmış modeller oluşturmanız mümkündür.

Kendi akıl yürütme modellerinizi eğitmek veya bu eğitimi tekrarlamak için gereken bağlantılar:

Teşekkür

Bu çalışmada sağladığı değerli yardımlardan dolayı Christian Munley’e teşekkür etmek isteriz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri