SON DAKİKA

Nvdia

“Fine-tuning Gerekmeden EoRA ile Hızla LLM Sıkıştırma Hatalarını Onarma Yöntemi”

Model Sıkıştırma ve EoRA’nın Rolü

Model sıkıştırma teknikleri, büyük dil modellerinin (LLM’ler) veya diğer büyük boyutlu sinir ağlarının hesaplama kaynaklarını azaltmak için kapsamlı bir şekilde araştırılmıştır. Ancak mevcut yöntemlerin çoğu, sıkıştırılmamış modellere kıyasla önemli bir doğruluk kaybına neden olmakta veya uzun eğitim süreleri gerektirmektedir. Ayrıca, bu yöntemlerin uyarlanabilirliği, genellikle sınırlı bir donanım destekli sıkıştırma formatları (örneğin, 2:4 seyreklik, 3/4-bit kuantizasyon) ile kısıtlıdır. Bu durum, kullanıcılara doğruluk ve verimlilik açısından çeşitli gereksinimleri karşılama konusunda zorluklar yaratmaktadır.

EoRA: Yenilikçi Bir Yaklaşım

NVIDIA Araştırma Taiwan, Öğrenme ve Algı Araştırma Grubu, AI Hızlandırıcı ve VLSI Araştırma Grubu ve NeMo Grubu model sıkıştırmayı özelleştirilmiş telafi olarak yeniden şekillendirmiştir. Bu çerçevede, Yüksek Düşey Sıralama ile Sıkıştırılmış LLM için Optimal Telafi (EoRA) adını verdikleri bir yöntem geliştirmiştir. EoRA, çeşitli sıkıştırma teknikleri nedeniyle oluşan hataları telafi etmek için kalıntı düşük-rank yolları tanıtarak, kullanıcıların görev veya sıkıştırma oranı gibi farklı ihtiyaçlarına cevap verebilen bir çözüm sunar.

EoRA, ince ayar gerektirmeyen bir optimizasyon yöntemi olarak, gradyan hesaplaması yapmadan kısa bir süre içinde minimum kalibrasyon verisiyle tamamlanabilir. Bu yöntem, ince ayar için iyi bir başlangıç noktası sunmakla kalmaz, aynı zamanda ek yükü azaltarak daha fazla kuantizasyona dayanıklıdır.

EoRA’nın İşleyişi Nasıl?

EoRA, standart model sıkıştırma teknikleri ve algoritmalarına kıyasla, sıkıştırma hatalarını telafi etmek için kalıntı düşük-rank yolları sunar. Bu sayede, belirli sıkıştırma formatlarıyla sınırlı kalmadan genel kapasiteyi ayarlamak için daha fazla esneklik sağlar.

Düşük-rank kalıntı yolları elde etmek için, ilk adım olarak, kalibrasyon setinden alınan giriş aktivasyonlarının özdekompozisyonunu gerçekleştiririz. Doğrudan tekil değer ayrıştırması (SVD) kullanarak kapalı form çözümlerini türetmek demode bir yaklaşım olabilir, çünkü bu yöntem bireysel model ağırlıklarının değişken önemini göz ardı eder. Bu nedenle, düşük-rank temsilinin kapasitesinin altoptimal bir şekilde kullanılmasına yol açar.

EoRA, sıkıştırma hatalarını, ilgili katmanın giriş aktivasyonlarının öz alanına projekte ederek Delta W, hata yaklaşık kaybı ile katman başına model sıkıştırma kaybı arasında doğrudan bir ilişki kurar.

Son olarak, elde edilen düşük-rank matrislerini orijinal alana geri projekte ederiz ve böylece sıkıştırma hatalarını telafi etmek için düzeltmeler yapabiliriz. EoRA’nın bu işleyiş şekli, verimliliği artırmak ve daha fazla doğruluk sağlamak için idealdir.

Performans ve Sonuçlar

EoRA, farklı sıkıştırma teknikleriyle uyumlu olup, dil üretimi, ortak akıl yürütme ve matematik görevleri gibi çeşitli alanlarda etkileyici performans sergilemektedir. EoRA modeli, önceki SVD tabanlı yöntemlerden belirgin bir şekilde daha iyi sonuçlar elde etmektedir. Örneğin, EoRA’nın 2:4 kesilmiş Llama3-8B modeline uygulandığında ARC-Challenge, MathQA ve GSM8K üzerinde sırasıyla %4.53, %3.48 ve %11.83 oranında iyileşmeler sağladığını gözlemledik.

Ayrıca, EoRA modülü, 3/4-bit kuantizasyon altında az miktarda doğruluk kaybıyla sağlamlığını koruyarak sıkıştırma hatalarını telafi etmede pratik bir çözüm sunmuştur.

İnce Ayar ve Kuantizasyon

EoRA, ince ayar yöntemleriyle, sıkıştırılan modellerin doğruluk kaybını geri kazandırmada etkili bir yol sunuyor. Ayrıca, EoRA’nın kuantizasyona dayanıklılığı, kalıntı düşük-rank telafi yollarının ek maliyetlerini azaltma potansiyeli sunmaktadır.

EoRA, model sıkıştırma ve kuantizasyon üzerine açık kaynak kütüphanelerle entegre edilmiştir. Bu sayede, kullanıcılar EoRA yöntemini, yalnızca bir düğmeyi çevirerek kuantize edilmiş modellerinin doğruluğunu artırma amacıyla kolayca kullanabilir.

EoRA, büyük modellerin verimli bir şekilde dağıtılmasına olanak tanırken, Büyük Dil Modelleri ve Model Sıkıştırma gibi çeşitli alanlarda uygulanabilirliği artırır. Sonuçlar, EoRA’nın, sıkıştırılmış modellerin performansını artırmak için etkili bir çözüm sunduğunu göstermektedir.

Daha fazla bilgi için şu kaynakları inceleyebilirsiniz:

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri