Sınıflandırma modelleri, verileri belirli gruplara ayırma konusunda uzmanlaşmış yapay zeka araçlarıdır. Bu modeller, veri işleme süreçlerinin optimize edilmesinde, özellikle generatif yapay zeka modellerinin ince ayar ve ön eğitim çalışmalarında kritik bir rol oynamaktadır. Sınıflandırıcıların değeri, düşük kaliteli veya zararlı verileri süzerek yalnızca temiz ve ilgili bilgilerin sonraki süreçlere ulaşmasını sağlamalarından gelir.
Ayrıca, sınıflandırma modelleri, verilerin zenginleştirilmesi konusunda da önemli katkılar sağlar. Örneğin, bu modeller, veriye alan, tip veya içerik özellikleri gibi meta veriler ekleyerek, veri hazırlama sürecini kolaylaştırır ve modellerin üretimde nasıl kullanıldığı hakkında içgörüler sunar. Örneğin, sınıflandırıcılar, kullanıcı taleplerinin karmaşıklığını anlamaya yardımcı olabilir ve geliştiriciler, bu talepleri en uygun modellere yönlendirebilir.
NVIDIA NeMo Curator ekibi, daha önce iki farklı sınıflandırma modeli yayınlamıştır:
- Alan Sınıflandırıcı: 26 alan sınıfına belge sınıflandırması yapan bir metin sınıflandırma modelidir.
- Kalite Sınıflandırıcı DeBERTa: Belge kalitesini yüksek, orta veya düşük olarak sınıflandıran bir metin sınıflandırma modelidir.
BERT tarzı sınıflandırıcı modellerin yanı sıra, NeMo Curator, n-gram bazlı kelime torbası sınıflandırıcıları da desteklemektedir. Örneğin, fastText gibi modeller ve büyük dil modelleri (LLM) ile veri etiketleme imkanı sunmaktadır.
Yeni Sınıflandırma Modelleri
Bu yazıda, dört yeni NeMo Curator sınıflandırma modelini ele alacağız:
- İstek Görevi ve Karmaşıklık Sınıflandırıcısı: 11 görev tipine ve 6 karmaşıklık boyutuna göre İngilizce metin isteklerini sınıflandıran çok başlıklı bir modeldir. Geliştiriciler bu modeli, isteklerin yönlendirilmesi ve kullanıcı isteklerini anlama gibi görevler için kullanabilirler.
- Talimat Veri Koruyucu: Veri setlerinde LLM zehirlenme saldırılarını tespit eden, skor üreten ve giriş verisinin zararsız mı yoksa zehirli mi olduğunu tahmin eden derin öğrenme sınıflandırma modelidir.
- Çok Dilli Alan Sınıflandırıcısı: İngilizce, Çince, Arapça, İspanyolca ve Hintçe dahil olmak üzere 52 dilde içerikleri 26 alana sınıflandıran çok dilli bir metin sınıflandırma modelidir.
- İçerik Türü Sınıflandırıcı DeBERTa: Belgeleri içeriklerine göre 11 farklı konuşma tipi olarak sınıflandıran bir metin sınıflandırma modelidir (örneğin, Blog, Haber ve İnceleme).
NVIDIA NeMo Curator’a Genel Bakış
NVIDIA NeMo Curator, generatif yapay zeka modelinin doğruluğunu artırmak için metin, görüntü ve video verilerini ölçekli bir şekilde işleyebilmektedir. Ayrıca, generatif yapay zeka sistemlerini özelleştirmek ve değerlendirmek için sentetik veri oluşturma amacıyla yapılandırılmış hazır iş akışları sunar.
NeMo Curator, veri işleme süresini önemli ölçüde azaltmak için Dask ile bir arada çalışan RAPIDS kütüphanelerini kullanmaktadır. Yüksek kaliteli verilerin işlenmesi, daha az veri ile daha yüksek doğruluk elde etmenizi ve modelin daha hızlı yakınsamasını sağlamaktadır.
Büyük Ölçekli Çıktı Süreçlerinin İyileştirilmesi
NeMo Curator, bu modeller için çok düğümlü ve çok GPU’lu yapılandırmalar için çıktı süreçlerini ölçeklendirmek amacıyla hazır bir çözüm sunmaktadır. Bu yaklaşım, CrossFit kütüphanesinin akıllı toplama teknikleri ile bir araya gelmesiyle verimliliği artırır.
NeMo Curator’ın sunmuş olduğu sıralı veri yükleyici, maksimum çıktı elde etmek için optimize edilmiştir:
- Giriş dizelerini uzunluğuna göre sıralamak
- Sıralı dizeleri optimize edilmiş gruplara ayırmak
- Her bir dizi uzunluğu ve grup boyutu için bellek ayak izlerini değerlendirerek, grupları kullanılabilir GPU belleğine etkin bir şekilde tahsis etmek
İstek Görevi ve Karmaşıklık Sınıflandırıcısı
Bu sınıflayıcı, İngilizce metin isteklerini görev türleri ve karmaşıklık boyutları açısından değerlendirir. Burada “istek”, bir LLM’den beklenen yanıtı almak için verilen giriş metnidir.
Örnek Giriş:
Bir küçük kasabada geçen bir gizem yazın, sıradan bir nesne kayboluyor ve bu da merak ve şüphe dalgası yaratıyor. Soruşturmayı takip edin ve kaybolmanın ardındaki sürpriz gerçeği açığa çıkarın.
Çıktı:
Görev | Karmaşıklık | Yaratıcılık | Mantık | Bağlamsal Bilgi | Alan Bilgisi | Kısıtlar | Az sayıda örnek sayısı |
Metin üretimi | 0.472 | 0.867 | 0.056 | 0.048 | 0.226 | 0.786 | 0 |
Bu model, LLM geliştirme ve dağıtım sürecinde, prompt’ların daha detaylı bir şekilde anlaşılması gereken çeşitli kullanımlarda fayda sağlar. Geliştiriciler, yüksek kaliteli ve çeşitli veri setleri oluşturma aşamasında kullanabilir ve çok sayıda ince ayar yapılmış LLM’lerden gelen istekleri yönlendirebilirler.
Talimat Veri Koruyucu
Önceden eğitilmiş LLM’ler, zararlı veriler üzerinde kötü niyetli ince ayarlama ile tehlikeye girebilir. Bu duruma zehirlenme denir. Poizonlama saldırılarında belirli kelime büyüleri kullanılarak saldırı yapılabilir.
Bu tür saldırılardan korunmak için Talimat Veri Koruyucu, LLM’lerdeki zehirlenmeyi tespit etmek üzere eğitilmiştir. Kötü niyetli istekleri bulma yeteneği ile zararsız verileri ayırt eder.
Örnek Giriş:
### Talimat
Bir Golden Retriever'ın ortalama yaşam süresi nedir?
### Bağlam
Golden Retriever'lar genellikle sağlıklı bir ırktır; ortalama yaşam süreleri 12 ila 13 yıldır.
Çıktı:
skor=0.000792806502431631
tahmin = (skor>0.5) = 0
Eylem:
Model skoru için eşik 0.5'tir. Tahmin 0'dan düşükse zararsız, 1'den yüksekse zararlı olarak sınıflandırılır.
Çok Dilli Alan Sınıflandırıcısı
Çok Dilli Alan Sınıflandırıcısı, 52 farklı dilde metin içeriklerini otomatik olarak kategorize etme olanağı sunar. Bu model, içerikleri 26 alanda sınıflandırabilmektedir. Bu, içerik organizasyonu ve meta veri etiketlemesi konusunda büyük avantaj sağlar.
Örnek Giriş:
最年少受賞者はエイドリアン・ブロディの29歳、最年少候補者はジャッキー・クーパーの9歳。
Çıktı:
Sanat_ve_Eğlence
Bu model, içeriklerin daha verimli bir şekilde düzenlenmesi için kullanılabilir. Ayrıca çok dillilik gerektiren projelerde tek bir modelle içeriklerinizi kategorize etmeyi sağlar.
İçerik Türü Sınıflandırıcı DeBERTa
İçerik Türü Sınıflandırıcı DeBERTa, belgeleri 11 ayrı içerik türüne ayıran gelişmiş bir metin analizi modelidir. Bu model, haber makalelerinden blog yazılarına kadar geniş bir içerik yelpazesini analiz edebilir.
Örnek Giriş:
Sevgili İngilizce Öğretmeni
Gerard Butler oyuncu olabilir, ancak İngilizce öğretemez.
Çıktı:
Bloglar
Bu model, yüksek doğruluğa sahip içerik sınıflandırması sağlar. Geliştiriciler bu modeli dijital içerik yönetim sistemlerinde otomatik içerik sınıflaması yapmak için kullanabilirler.
Nasıl Başlayabilirsiniz
Yeni dört sınıflandırma modeliHugging Face’te artık kullanılabilir. Ayrıca, örnek not defterleri NVIDIA/NeMo-Curator GitHub reposunda yer almaktadır. Bu, bu sınıflandırma modellerinin nasıl kullanılacağına dair adım adım rehberlik sunmaktadır. Gelecek güncellemeler için depo sayfasını kaydetmeyi unutmayın.