Zyphra Technologies, gelecek nesil durum uzayı model mimarilerinde ileri araştırmaları, uzun süreli belleği ve güçlendirme öğrenmeyi birleştiren çoklu modal bir ajan sistem üzerinde çalışan bir şirket, yeni bir açık öntrenje veri seti olan Zyda-2’yi yayınladı. Bu veri seti, 5 trilyon token içermektedir.
Zyda-2, önceki versiyonundan beş kat daha büyük olup geniş bir konu yelpazesini kapsamaktadır. Ancak onu gerçekten farklı kılan, eşsiz bileşimidir. Birçok açık veri setinin aksine, Zyda-2, en iyi mevcut veri setlerinin güçlü yönlerini korurken zayıflıklarını ortadan kaldırmak için damıtılmıştır.
Küçük Modeller İçin Güçlü Bir Veri Seti: Zyda-2
Şirket, Zamba2 küçük dil modelini bu veri setini kullanarak eğitti ve diğer alanında lider açık kaynak dil modelleme veri setlerini kullandığında önemli ölçüde daha iyi performans gösterdiğini tespit etti.
Şirketin amacı, yüksek doğruluk gösteren dil modellerini eğitim bütçesi dahilinde kenar ve tüketici cihazlarında bile etkili bir şekilde çalıştırmak için bir çözüm sunmaktır. Bu çalışma, daha iyi kalite küçük modellerin yolunu açmayı ve işletmelerin belirli bellek ve gecikme kısıtlamaları için hem cihazda hem de bulutta verimliliklerini en üst düzeye çıkarmalarına yardımcı olmayı ummaktadır.
Zyda-2 Ne Sağlıyor?
Şirket, Zyda-1 üzerine inşa ederek Zyda-2’yi geliştirdi. Nvidia’nın NeMo Kuratörü’nü kullanarak veriyi işleme süresini 10 kat hızlandıran bir GPU hızlandırılmış veri kürasyon kütüphanesi olan Zyphra, farklı veri setlerini birleştirerek Zyda-2’yi oluşturdu.
“Her bileşen veri kümesinin kendi güçlü ve zayıf yönleri vardır, ancak birleşik Zyda-2 veri kümesi bu eksiklikleri doldurabilir. Tipik olarak bu veri kümelerinin saf bir kombinasyonu yerine, bu veri kümesi, dedüplikasyon ve agresif filtreleme kullanarak bu veri kümelerinin kalitesini artırarak belirli bir model kalitesine ulaşmak için gereken toplam eğitim bütçesini azaltır,” Nvidia’nın blog yazısında belirtildi.
Distile Edilmiş Veri Seti ve Model Performansı
Yapılan bir çalışmada Zyda-2 ile Zamba2-2.7B modelinin eğitilmesi, önde gelen testlerde en yüksek değerlendirme puanını elde etti. Bu, bireysel açık veri kümeleriyle eğitim yapmaktan ziyade damıtılmış veri kümesi ile eğitmenin model kalitesini artırdığını göstermektedir.
Şirket, bu çalışmanın daha iyi kalite küçük modellerin yolunu açmasını ve işletmelerin belirli bellek ve gecikme kısıtlamaları için hem cihazda hem de bulutta verimliliklerini en üst düzeye çıkarmalarına yardımcı olmayı ummaktadır. Zyda-2 veri seti Hugging Face’den doğrudan indirilerek ekipler tarafından kullanılabilir.