Yüksek kaliteli ön eğitim veri setleri oluşturmak, günümüzün gelişmiş yapay zeka uygulamaları için son derece önemlidir. Geliştiricilerin gelişmiş dil modelleri (LLM’ler) eğitmesine olanak tanıyan NVIDIA, daha önce 6.3 trilyon token içeren Nemotron-CC adında bir İngilizce Common Crawl (CC) veri seti yayımlamıştı. Bugün, NVIDIA NeMo Curator ekibi, Nemotron-CC veri setini oluşturmak için kullandıkları pipelinelarını artık NeMo Curator GitHub deposuna entegre ettiklerini duyurmaktan heyecan duyuyor.
Nemotron-CC pipeline’ı, doğruluk ve veri miktarı arasında denge sağlayarak, seçim yapmak zorunda kalan geliştiricilere yenilikçi bir çözüm sunuyor. Bu pipeline, sınıflandırıcı toplulukları ve sentetik veri yeniden ifade etme tekniklerini birleştirerek, yüksek kaliteli sentetik veri üretiminde ölçeklenebilir bir yöntem sunuyor.
Nemotron-CC Veri Kürasyonu Pipeline’ının Faydaları
Geleneksel veri kürasyonu yöntemleri, anlam kalitesini değerlendiremeyen heuristic filtrasyonlar nedeniyle sınırlıdır. Bu durum, kullanılabilir düşük kaliteli metinlerin elenmesine ve sonuçta modellerin doğrulukta platolar yaşamasına yol açar. Özellikle karmaşık akıl yürütme görevleri üzerinde bu durum büyük problemler yaratmaktadır.
Nemotron-CC pipeline’ı, doğruluk ve veri miktarı arasında denge kurmanın yenilikçi bir yolunu sunmaktadır. Sentetik veriler sayesinde, elenmiş içeriğin %90’ına kadar geri kazandırılmasını sağlıyor. Bu da, uzun vadeli ön eğitim görevleri için, modellenmesi gereken 15 trilyon token gerektiren Llama 3.1 gibi büyük yapay zeka modellerinin eğitimine uygun hale gelmiş oluyor.
Nemotron-CC Veri Kürasyonu Pipeline’ına Derin Bakış
Nemotron-CC pipeline’ı, geleneksel veri kürasyonundaki eksiklikleri gidermek için karmaşık bir süreç sunmaktadır. Pipeline, ham Common Crawl (CC) veri setini işleyerek ince ayar yapılmış, çok görevli bir korpus haline dönüştürmeyi amaçlar.
- HTML’den Metin Çıkarma ve Filtreleme
- Model Tabanlı Kalite Etiketleme
- Sentetik Veri Üretimi (SDG)
Bu aşamalarda neler yapıldığına daha yakından bakalım.
HTML’den Metin Çıkarma ve Filtreleme
Pipeline, jusText ile HTML çıkarımı yapar ve FastText kullanarak İngilizce dil verilerini tanımlar. Metin çıkarıldıktan sonra, metnin tekrar eden ya da benzer belgelerden arındırılması için tam ve bulanık çiftlerin deduplikasyon algoritmaları uygulanır.
NeMo Curator’ın doğru deduplikasyon modülü, veri setindeki tam aynı belgeleri verilerin toplamını oluşturacak şekilde etkili bir biçimde belirleyip yalnızca bir belgeyi saklar. Bulanık deduplikasyon modülü ise, belgelere olan benzerlikleri belirlemek için MinHash imzaları kullanarak benzer belgeleri tanımlar.
Son olarak, devasa veri işleme süresi daha hızlı bir şekilde gerçekleştirilir. NeMo Curator, bu süreçte NVIDIA RAPIDS kütüphanelerinden faydalanarak verimliliği artırır ve işleme sürelerini %16 kadar hızlandırır.
Model Tabanlı Kalite Etiketleme
Pipeline, üç farklı kalite sınıflandırıcı modeli kullanmaktadır: FastText Kalite Sınıflandırıcısı, FineWeb Mixtral Edu Sınıflandırıcısı ve FineWeb Nemotron-4 Edu Sınıflandırıcı.
Her bir sınıflandırıcı model, farklı kalite tercihlerine göre puan üretir. Bu modellerin sonuçları daha sonra birleştirilir ve veri seti sıralanarak en iyi belge kalitesine ulaşması sağlanır.
Sentetik Veri Üretimi
SDG pipeline’ları, düşük ve yüksek kaliteli belgelerden veri üretmek için kullanılır. Düşük kaliteli belgelerde faydalı bilgileri yeniden işlemek için bir dil modeli kullanılarak metin yeniden yazılır. Yüksek kaliteli belgelerde ise bilgiler daha özgün hale getirilen token’lar vasıtasıyla yeniden yapılandırılır.
Toplamda, dört farklı dil modeli kullanarak çeşitli bilgi özetleri veya yeniden yazmalar oluşturulur. Bu, metinden önemli bilgileri çıkarmayı ve uninformative içerikleri yok saymayı içermektedir.
Sonuçlar
Yapılan araştırmalar sonucunda, Llama 3.1 modelinin Nemotron-CC veri seti kullanılarak eğitilmesi, MMLU skoru üzerinde 5.6 puan artırmıştır. Daha fazla sonuç için Nemotron-CC: Common Crawl’ı İyileştirme Üzerine makalesini inceleyiniz.
Uzun vadeli veri kullanımı, eğitim performansında büyük artışlar sağlamaktadır. Bu nedenle Nemotron-CC veri seti, eğitim süreçlerini destekler ve geliştirilmesine yardımcı olur.
Başlayın
Nemotron-CC pipeline’ını kullanarak yüksek kaliteli veri setleri oluşturabilir ve bu veri setlerini temel model ön eğitimi veya alan-adapte eğitimi (DAPT) için uygulayabilirsiniz.
Başlamak için aşağıdaki bağlantıları kontrol edebilirsiniz:
- GitHub Eğitimi: Pipeline’ın adım adım nasıl kurulduğu ile ilgili Jupyter not defteri.
- NeMo Curator API’leri: Pipeline’ın farklı aşamalarını özelleştirmenizi sağlayan bir Python arayüzü.
Ayrıca, yeni özellikler ve eğitimler hakkında güncelleme almak için NeMo Curator GitHub deposunu yıldızlayabilirsiniz.