Büyük dil modelleri (LLM’ler), son yıllarda akıl yürütme, kod üretimi, makine çevirisi ve özetleme gibi birçok alanda önemli ilerlemeler kaydetti. Ancak, bu modellerin finans veya sağlık gibi alanlara özgü uzmanlıklar ve İngilizce dışındaki kültürel ve dilsel nüansları yakalama konusundaki sınırlamaları devam etmektedir.
Bu sınırlamaların üstesinden gelmek, devam eden ön eğitim (CPT), talimat ile ince ayar ve bilgi alma destekli üretim (RAG) ile mümkün olabilecektir. Bu süreç, yüksek kaliteli, alan spesifik veri setleri, sağlam bir AI platformu (yazılım ve donanım alt yapısı) ve gelişmiş AI uzmanlığı gerektirir.
iGenius: Yapay Zeka Uzmanlığı
iGenius, yüksek regülasyonlu sektörlerde (finans hizmetleri ve kamu yönetimi gibi) işletmelere yönelik yapay zeka uzmanlığı sunan İtalyan bir teknoloji şirketidir. 2016 yılında, verileri insanlaştırmak ve iş bilgilerini demokratikleştirmek amacıyla kurulmuştur.
iGenius, NVIDIA Inception iş ortağı olarak, gelişmiş bir temel LLM geliştirmek için sıkı bir zaman diliminde çalışmış, ancak büyük ölçekli GPU kümelerine (binlerce GPU) erişimde ve yüksek ölçeklenebilir eğitim çerçeveleri sağlamada zorluklar yaşamıştır. Bu süreçte, Colosseum 355B LLM‘yi geliştirerek, yüksek regülasyonlu ortamlar için tasarlanmış güvenilir bir model sağlamıştır.
NVIDIA DGX Cloud, yüksek performanslı AI eğitimi için büyük kümelere erişim imkanı sunarken, iGenius bu iş birliğini kullanarak Colosseum 355B’nin geliştirilmesini hızlandırmıştır. Bir hafta içinde, 3.000’den fazla GPU’dan oluşan özel bir altyapıya erişim sağlanmış ve iki ay içinde Colosseum 355B’nin devam eden ön eğitim süreci tamamlanmıştır.
Colosseum 355B’nin Kapasite ve Özellikleri
Agentik AI konsepti çerçevesinde, iGenius, iş zekası ajanı Crystal‘ı güçlendirmek için LLM’ler geliştirmiştir. Kendi temel LLM’lerini kullanarak, veri gizliliği, özelleştirme ve performans konularında daha fazla kontrol sağlamaktadır.
Bu süreç, Colosseum 355B modelinin büyük veri tabanı entegrasyonu, AI destekli yapılandırma ve LLM destekli orchestration gibi özellikleri içerir. Bu yaklaşım sayesinde Crystal, izole bir AI işletim sistemi gibi işlev görerek, görevleri etkili bir şekilde yönetme yeteneğine sahiptir.
DGX Cloud Altyapısı İle Verimlilik
Güçlü **LLM** akıl yürütme kapasiteleri, sağlam, dağıtılmış bir donanım ve yazılım çözümü gerektirir. Herhangi bir darboğaz, eğitim sürecini ciddi şekilde yavaşlatabilir veya durdurabilir. NVIDIA DGX SuperPOD, bu tür riskleri ortadan kaldırmak amacıyla, her şeyin optimize edilmiş bir sistem olarak sunulmasını sağlar.
Hızlı erişim gerektiren müşteriler için, NVIDIA DGX Cloud, AI optimize edilmiş altyapıyı hızlıca erişilebilir kılarak, büyük ölçekli eğitimleri başlatma fırsatı sunmaktadır. AWS, Google Cloud Platform, Azure gibi iş ortakları ile devam eden iş birlikleri sayesinde, müşteriler hemen büyük ölçekli eğitim süreçlerine başlayabilirler.
iGenius, Colosseum 355B’nin geliştirilmesinde veri hazırlığı, LLM eğitimi ve model validasyonu süreçlerini hızlandırmak için NVIDIA AI uzmanları ile iş birliği yapmıştır.
Özel Veri Seti Geliştirme
CPT kapsamındaki en önemli faktör, orijinal eğitim veri setinin büyük bir kısmını korumaktır. Bu, önemli dağılım kaymalarını önlemeye yardımcı olur. iGenius, kodlama ve çok dilli token’ların dağılımını korumak amacıyla bir CPT veri seti oluşturmuştur.
Colosseum 355B, 50’den fazla dilde, özellikle de Avrupa dillerinde güçlü bir temsil sunmaktadır. Ayrıca, finans ve akıl yürütme alanlarından gelen özel kaynaklarla performansını artırmaktadır.
CPT veri setinin toplamda **2.5T** token’den oluştuğu belirtilmiş, ayrıca 1M örnekle denetimli ince ayar verisi kullanılarak özel görevler için uyum sağlanmıştır.
Devam Eden Ön Eğitim Süreci
Colosseum 355B gibi bir LLM’yi geliştirirken, her parametre üzerinde değişiklik yapılması gerekmektedir. Bu noktada, devam eden ön eğitim süreci devreye girmektedir. iGenius, NVIDIA NeMo Framework ile bu süreçte en son eğitim ve optimizasyon tekniklerini kullanmıştır.
Colosseum 355B’nin verimliliğini artırmak için birçok deneysel keşif gerçekleştirilmiş ve yapılan çalışmalarla Model FLOP/s Kullanımı (MFU) metriği göz önünde bulundurulmuştur. İlk fazda, Colosseum 355B’de veri paralelliği ve diğer parametreler optimize edilmiştir. İkinci fazda, modelin parametre sayısı artırılmış ve bağlam uzunluğu uzatılmıştır.
Üçüncü fazda ise FP8 doğruluğu kullanarak eğitim süreleri %15 hızlandırılmıştır. Böylece, iGenius, Colosseum 355B ile pek çok önemli parametreyi optimize etmede başarılı olmuştur.
Model İyileştirme ve Eğitim Yaklaşımları
LLM’nin eğitimi sonrası, model belirli görevleri (özelleştirilmiş bilgi veya talimatlarla) gerçekleştirme yeteneğini kazanmalıdır. iGenius, bu süreçte toplanan veri ile denetimli ince ayar ve insan tercihleri ile optimizasyon üzerine yoğunlaşmıştır.
Denetimli ince ayar (SFT), modelin parametrelerini etiketli girdiler ve istediğimiz çıktılar ile ince ayar yaparak optimize etmeyi amaçlar. Eğitim sürecinde yüzlerce farklı parametre ve etiketle, modelin görev performansı artırılmaktadır.
Modelin başarıya ulaşabilmesi için gerçekleştirdiği denemeler, akıl yürütme ve bilgi testi gibi alanlarda performansını analiz etmek adına kritik önem taşımaktadır.
Sonuç olarak, iGenius, Colosseum 355B ile hedeflenen verimlilik ve uzmanlık alanlarına yönelik sürdürülebilir çözümler sunma taahhüdünü ortaya koymuştur. Colosseum 355B, NVIDIA API Kataloğu’nda artık erişilebilir durumdadır.
iGenius ve NVIDIA‘ya teşekkürler, özellikle Francesco Paolo Albano, Michele Resta, Andrea Valenti ve Danilo Numeroso gibi katkıda bulunanlar ile Oleg Sudakov ve Sergio Perez gibi NVIDIA’yı da unutmamak gerekir.