Harvard’dan Büyük Veri Seti Müjdesi
Yapay zeka eğitim verileri elde etmenin yüksek maliyetleri, çoğunlukla yalnızca büyük teknoloji şirketlerini ilgilendiriyor. Bu nedenle, Harvard Üniversitesi, içeriğinde yaklaşık 1 milyon kamu malı kitabı barındıran bir veri seti yayınlamayı planlıyor. Bu kitaplar, Charles Dickens, Dante ve Shakespeare gibi yazarların eserlerini kapsıyor ve telif hakkı korumasından kurtulmuş durumda.
Henüz Yayınlanmadı
Yeni veri setinin çıkış tarihi veya yayınlanma şekli henüz net değil. Ancak, bu veri setinin Google’ın uzun süreli kitap tarama projesi olan Google Books’tan elde edildiği biliniyor. Dolayısıyla, Google da bu “hazineyi” geniş bir kitleye ulaştırma sürecine dahil olacak.
Kurumsal Veri İnisiyatifi
Harvard, Kurumsal Veri İnisiyatifi (IDI) hakkında Mart ayında ilk kez bilgi vermişti. Bu inisiyatif, “yapay zeka için hukuki verilerin güvenilir bir kanalı” oluşturmayı hedefliyor. Ancak, kısa bir süre içinde fazla bilgilenemedik. Nihayet bugün yapılan resmi lansmanla birlikte, IDI’nin Microsoft ve OpenAI tarafından mali destek aldığını öğrendik.
Adil Bir Oyun Alanı Yaratmak
IDI’nin yürütücü direktörüGreg Leppert, bu veri setinin “oyun alanını düzleştirmek” amacıyla tasarlandığını belirtti. Böylece, veri seti, büyük dil modelleri (LLM’ler) eğitmek isteyen araştırma laboratuvarlarından AI girişimlerine kadar birçok kullanıcının erişimine sunulacak.