“Nemotron-CC: LLM Pretraining İçin Trilyon Token’lı İngilizce Dil Veritabanı”

NVIDIA, Nemotron-CC Datasetini Duyurdu

NVIDIA, Nemotron-CC adıyla yeni bir 6.3 trilyon token içeren İngilizce dil veri setini duyurmaktan heyecan duyuyor. Bu veri seti, Common Crawl verilerine dayanarak, yüksek doğrulukta büyük dil modellerinin (LLM) ön eğitimini sağlamak amacıyla hazırlandı. Veri seti, 1.9 trilyon token değerinde sentetik veri içermektedir. Son dönemdeki başarılı LLM’lerin, örneğin Meta Llama serisi, 15 trilyon token veriden yararlandı.

Veri Setlerinin Kalitesi ve Önemi

Ancak bu 15 trilyon tokenın tam bileşimi hakkında pek az bilgi bulunmaktadır. Nemotron-CC, bu boşluğu doldurmayı ve daha geniş bir topluluğun yüksek doğrulukta LLM’ler eğitmesini sağlamayı hedefliyor. İnternet tarama verileri, genellikle Common Crawl gibi kaynaklardan elde edilen en büyük token kaynağıdır. Yeni açık Common Crawl veri setleri, FineWeb-Edu ve DCLM gibi, oldukça kısa token sürelerinde benchmark başarılarını önemli ölçüde artırma konusunda gösterdi. Bununla birlikte, bu başarı, %90’lık bir veri kaybına mal oldu ve bu da uzun token süreleri için uygunluğu sınırladı.

Nemotron-CC’nin Avantajları

Nemotron-CC, bu boşluğu doldurarak, Common Crawl verilerini daha kaliteli bir veri setine dönüştürme konusunda öncülük ediyor. Bu sayede, Llama 3.1 8B modelinden daha iyi eğitim yapılabiliyor; bunun arkasında yatan yöntemi ise, model tabanlı sınıflandırıcıların bir araya getirilmesi, sentetik verilerin yeniden ifade edilmesi ve sezgisel filtrelere olan bağımlılığın azaltılması olarak özetlemek mümkün.

Sonuçlar ve Başarılar

Şekil 1’de görülmekte olan sonuçlar, 1 trilyon token için 8B parametreli modellerin eğitilmesi esnasında elde edilen MMLU puanlarını göstermektedir. Eğitim verilerinin %73’ü İngilizce Common Crawl bölümünden alınmıştır. Yüksek kaliteli alt küme Nemotron-CC-HQ, lider açık İngilizce Common Crawl veri seti DCLM ile karşılaştırıldığında, >5.6 puan artışı sağlamıştır.

Chart showing MMLU accuracies when training 8B parameter models for 1 trillion tokens using different open English Common Crawl datasets. Nemotron-CC-HQ attains +5.6 MMLU compared to DCLM (59.0 versus 53.4). Nemotron-CC attains MMLU 53.0, comparable to 53.4 for DCLM, but has 4x more data. FineWeb-Edu and FineWeb-Edu-2 attain MMLU accuracies of 42.9 and 42.4, respectively.
Şekil 1. 1 trilyon token için eğitilen 8B parametreli modellerin MMLU puanları

Ayrıca, toplam 6.3 trilyon token içeren veri seti, DCLM ile eşleşmekte, ancak dört kat daha fazla benzersiz gerçek token içermektedir. Bu durum, uzun token süreleri boyunca etkili eğitim imkanı sunmaktadır. Böylece, 7.2 trilyon token’ın Nemotron-CC verisinden geldiği, 15 trilyon token için eğitim alan bir 8B parametreli model, Llama 3.1 8B modelinden %5 daha iyi sonuçlar elde etmektedir.

Ana Fikirler ve Gelişmeler

Bu sonuçlara ulaşmamızı sağlayan bazı temel çıkarımlar ise şunlardır:

Veri Temizleme Aşamaları

NVIDIA NeMo Curator kullanarak, Common Crawl verilerinden veri çıkardık ve temizledik. Bu süreçte:

Ayrıca, yaklaşık 2 trilyon token değerinde sentetik veri üretim süreçlerini de kullandık.

Sonuç ve Gelecek Planları

Nemotron-CC, açık, büyük ve yüksek kaliteli bir İngilizce Common Crawl veri setidir ve hem kısa hem de uzun token süreleri boyunca yüksek doğrulukta LLM’lerin ön eğitimine olanak tanır. Gelecekte, devlet-of-the-art LLM ön eğitimi için anahtar bileşen olan özel bir matematik veri seti gibi daha fazla veri seti yayınlamayı umuyoruz.

Teşekkürler

Datasetin barındırılmasında Common Crawl Foundation‘a teşekkür ederiz. Ayrıca, makalenin gelişiminde değerli geri bildirimleri için Pedro Ortiz Suarez‘a ve veri biçimlendirilmesi ile düzeni konusunda yardımcı olan Greg Lindahl‘a teşekkür ederiz.

Kaynak

Nvdia Blog

Exit mobile version