Küçük Dil Modellerinin Performansını Artıran Hymba Hibrit Başlık Mimarisi

Transformers, dikkat tabanlı mimarileri sayesinde dil modelleri (LM’ler) için en popüler seçim haline geldi. Bu modellerin güçlü performansı, paralelleşme yetenekleri ve anahtar-değer (KV) önbellekleri aracılığıyla uzun vadeli hatırlama kapasiteleri bulunmaktadır. Ancak, kare artan hesaplama maliyetleri ve yüksek bellek gereksinimleri verimlilik konusunda zorluklar oluşturmaktadır. Buna karşın, durum alanı modelleri (SSM’ler) gibi Mamba ve Mamba-2, sabit karmaşıklık ve verimli donanım optimizasyonları sunabilmektedir. Fakat, bellek hatırlama görevlerinde sorunlar yaşamakta, bu durum genel benchmarklardaki performanslarını etkilemektedir.

NVIDIA araştırmacıları, Hymba adında küçük bir dil modeli (SLM) ailesi önerdi. Bu model, verimliliği artırmak ve performansı iyileştirmek amacıyla hybrid-head paralel mimarisi ile transformer dikkat mekanizmalarını ve SSM’leri birleştiriyor. Hymba, yüksek çözünürlüklü hatırlama sağlarken, SSM başlıkları etkili bağlam özetlemesi sunuyor.

Hymba’nın Yenilikçi Mimari Tasarımı

Hymba’nın mimarisi birkaç önemli içgörü sunmaktadır:

Dikkatteki aşırı yük: Dikkat hesaplamalarının %50’sinden fazlası, daha ucuz SSM hesaplamaları ile değiştirilerek ortadan kaldırılabilir.
Yerel dikkatin önemi: Global dikkatin büyük çoğunluğu, performanstan ödün vermeden yerel dikkate dönüştürülebilir. Bunu, SSM başlıkları tarafından özetlenen global bilgiler sağlıyor.
KV önbelleklerinde tekrarlama: Anahtar-değer önbelleği başlıklar ve katmanlar arasında yüksek derecede korelasyona sahiptir, bu nedenle bu önbellek başlıklar arası (grup sorgu dikkati) ve katmanlar arası (çapraz katman KV önbellek paylaşımı) olarak paylaşılabilir.
Softmax dikkatin sınırlamaları: Dikkat mekanizmaları bir süre toplamını sınırladıkları için seyrekliği ve esnekliği sınırlıyor. Bu nedenle, kritik bilgileri saklamak ve dikkat mekanizmaları ile ilgili “zorunlu dikkat” yükünü hafifletmek için öğrenilebilir meta-tokenlar tanıtıyoruz.

Hymba 1.5B’nin Performansı

Yapılan değerlendirmeler, Hymba 1.5B’nin benzer boyuttaki açık kaynak model olan Llama 3.2 1B, OpenELM 1B, Phi 1.5, SmolLM2 1.7B, Danube2 1.8B ve Qwen2.5 1.5B’ye karşı oldukça başarılı bir performans sergilediğini gösteriyor. Benzer boyuttaki transformer modellerine göre, Hymba daha yüksek çıkış hızına ulaşmış ve önbellek depolamak için 10 kat daha az bellek gerektirmiştir.

Hymba 1.5B şu anda Hugging Face koleksiyonunda ve GitHub’da yayımlanmıştır.

Hymba Modelinin Tasarımı

SSM’ler, transformerların kare karmaşıklık ve büyük çıkarım zamanı KV önbellek sorunlarını çözmek için önerilmiştir. Ancak, düşük çözünürlüklü bellek nedeniyle SSM’ler, bellek hatırlamasında zorluk çekebilir. Bu sınırlamaların üstesinden gelmek için, etkili ve yüksek performanslı küçük LMs geliştirmek için bir yol haritası sunuyoruz.

Konfigürasyon	Ortak akıl % ↑	Hatırlama % ↑	Çıkış hızı (token/saniye) ↑	Önbellek boyutu (MB) ↓	Tasarım nedeni
300M model boyutu ve 100B eğitim tokeni üzerine ablamalar
Transformer (Llama)	44.08	39.98	721.1	414.7	Kesin hatırlama, ancak verimsiz
Durum alanı modelleri (Mamba)	42.98	19.23	4720.8	1.9	Verimli, ancak hatırlamada hatalı
A. + Dikkat başlıkları (ardışık)	44.07	45.16	776.3	156.3	Hatırlama yeteneklerini artırma
B. + Çoklu başlıklar (paralel)	45.19	49.90	876.7	148.2	İki modül arasında daha iyi denge
C. + Yerel/global dikkat	44.56	48.79	2399.7	41.2	Hesaplama/önbellek verimliliğini artırma
D. + KV önbellek paylaşımı	45.16	48.04	2756.5	39.4	Önbellek verimliliği
E. + Meta-tokenlar	45.59	51.79	2695.8	40.0	Öğrenilen bellek başlangıcı
1.5B model boyutuna ve 1.5T eğitim tokenine ölçeklenme
F. + Boyut/veri	60.56	64.15	664.1	78.6	Görev performansını artırma
G. + Uzun bağlam süresi (2K→8K)	60.64	68.79	664.1	78.6	Çoklu örnek ve hatırlama görevlerini iyileştirme

Tablo 1. Hymba modelinin tasarım yol haritası

Birleşik Hybrid Modüller

Hymba’nın mimarisi, ardışık yığmadan daha etkili olduğunu gösteren ablamalarla, dikkat ve SSM başlıklarını paralel bir şekilde birleştirmektedir. Hymba, dikkat ve SSM başlıklarını paralel olarak işleyerek her iki başlığın da aynı bilgiyi eş zamanlı işlemesine olanak tanımaktadır. Bu mimari, akıl yürütme ve hatırlama doğruluğunu artırmaktadır.

Verimlilik ve KV Önbellek Optimizasyonu

Dikkat başlıkları görev performansını artırırken, KV önbellek taleplerini artırmakta ve çıkış hızını düşürmektedir. Bu durumu azaltmak için, Hymba hibrit başlık modülünü yerel ve global dikkati birleştirerek ve katmanlar arası KV önbellek paylaşımını kullanarak optimize etmiştir. Bu, çıkış hızını 3 kat artırırken, önbelleği neredeyse 4 kat azaltır.

Meta-tokenlar

Girişlere eklenen 128 önceden eğitilmiş gömme, ilgili bilgilere odaklanmayı artırmak için öğrenilmiş önbellek başlangıcı olarak işlev görmektedir. Bu tokenlar iki temel amaç taşır:

Dikkat kaybını önlemek için arka plan tokenları olarak işlev görmek ve dikkati etkin biçimde dağıtmak,
Sıkıştırılmış dünya bilgisini kapsamak.

Model Analizi

Bu bölüm, farklı mimarilerin aynı eğitim ayarları altında karşılaştırılmasını sunar. Ardından dikkat haritalarının görünümü ile SSM ve Dikkatin farklı önceden eğitilmiş modellerde nasıl çalıştığını inceleyeceğiz. Son olarak, Hymba’nın baş önem analizi, budama işlemi ile yapılacaktır.

Doğrudan Karşılaştırma

Hymba, saf Mamba2, Mamba2 ile FFN, Llama3 tarzı ve Samba tarzı (Mamba-FFN-Dikkat-FFN) mimarileri ile aynı eğitim ayarlarında doğrudan karşılaştırılmıştır. Tüm modeller 1 milyar parametreye sahiptir ve SmolLM-Corpus veri kümesinden 100 milyar token ile sıfırdan eğitilmiştir. Tüm sonuçlar lm-evaluation-harness kullanılarak Hugging Face modellerinde sıfırdan öğrenme ayarı ile elde edilmiştir. Hymba, çoğunlukla ortak akıl ile soruları yanıtlama ve hatırlama yoğun görevlerde en iyi performansı göstermektedir.

Tablo 2, farklı model mimarilerinin dil modellemesi ve hatırlama yoğunluk ve ortak akıl görevlerindeki performansını karşılaştırırken, Hymba’nın güçlü sonuçlar elde ettiğini gösteriyor. Hymba, dil görevlerinde en düşük perpleksite‘ye (Wiki için 18.62 ve LMB için 10.38) sahiptir ve hatırlama yoğun görevlerde, özellikle SWDE (54.29) ve SQuAD-C (44.71) ile farklılık göstererek en yüksek ortalama skoru (49.50) elde etmiştir.

Model	Dil (PPL) ↓	Hatırlama yoğun (% ↑)	Ortak akıl (% ↑)
Mamba2	15.88	43.34	52.52
Mamba2 ile FFN	17.43	28.92	51.14
Llama3	16.19	47.33	52.82
Samba	16.28	36.17	52.83
Hymba	14.5	49.5	54.57

Tablo 2. 100 milyar token ile aynı ayarlarla eğitilen mimarilerin karşılaştırması

Dikkat Haritalarının Görselleştirilmesi

Dikkat haritasındaki öğeleri dört türe ayırdık:

Meta: Gerçek tokenlardan meta-tokenlara olan dikkat puanları. Bu kategori, modelin meta-tokenlara dikkat etme eğilimini yansıtır. Dikkat haritalarında genellikle ilk birkaç sütunda (örneğin, Hymba’da 128) bulunurlar.
BOS: Tüm gerçek tokenların başlangıç sekansı tokenına olan dikkat puanları. Dikkat haritasında genellikle meta-tokenlardan hemen sonra ilk sütunda yer alır.
Kendine ait: Tüm gerçek tokenların kendilerine olan dikkat puanları. Dikkat haritasında genellikle diyagonal çizgide bulunurlar.
Çapraz: Tüm gerçek tokenların diğer gerçek tokenlara olan dikkat puanları. Dikkat haritasında genellikle diyagonal olmayan alanlarda yer alır.

Hymba’nın dikkat kalıbı, sıradan transformerların dikkat kalıbından belirgin şekilde farklıdır. Sıradan transformerlarda, dikkat puanları genellikle BOS üzerinde yoğunlaşmıştır. Kendi kendine dikkat puanlarının oranı daha yüksektir. Hymba’da, meta-tokenlar, dikkat başlıkları ve SSM başlıkları birbirini tamamlayarak dikkat puanlarının farklı türler arasında daha dengeli bir dağılım göstermesine yol açmaktadır.

Özellikle, meta-tokenlar, BOS’tan dikkat puanlarını yükünü azaltarak modelin gerçek tokenlar üzerinde daha fazla yoğunlaşmasını sağlar. SSM başlıkları, global bağlamı özetlerken, kendini vurgulayan tokenlara (Kendine ait dikkat puanları) odaklanır. Dikkat başlıkları ise, kendine ve BOS tokenlara daha az dikkat ederek, başka tokenlara (yani, Çapraz dikkat puanları) daha fazla dikkat verir. Bu, Hymba’nın hibrit başlık tasarımının dikkati farklı türlerdeki tokenlar arasında etkili bir şekilde dengeleyebileceğini ve potansiyel olarak daha iyi performansa yol açabileceğini göstermektedir.

Başlıkların Önemi Analizi

Dikkat ve SSM başlıklarının her katmandaki göreceli önemini analiz ettik. Analizimiz şunları ortaya koymuştur:

Aynı katmandaki dikkat/SSM başlıklarının göreceli önemi, girişe uyum sağlamakta ve görevler arasında değişkenlik göstermektedir. Bu, farklı girişlerle başa çıkarken farklı roller üstlenebileceklerini öne sürmektedir.
İlk katmandaki SSM başlığı, dil modellemesi için kritik öneme sahiptir; çıkarıldığında, önemli bir doğruluk kaybı yaşanmaktadır.
Genel olarak, bir dikkat/SSM başlığını kaldırmak, sırasıyla Hellaswag’da ortalama %0.24/%1.1 doğruluk kaybına neden olmaktadır.

A line graph comparing the Hellswag Accuracy (y-axis ranging from 0.45 to 0.50) across 32 different layers (x-axis). The graph shows three elements: a horizontal dashed line labeled Orig Model at approximately 0.493, and two sets of bars in blue and orange representing Remove Attn and Remove SSM, respectively. The bars fluctuate slightly above and below the original model line, with most values falling between 0.47 and 0.495. The graph compares the impact of removing attention mechanisms versus SSM components at different layers of the model. — *Şekil 7. Dikkat veya SSM başlıkları çıkarıldığında elde edilen doğruluk değeri*

Model Mimarisi ve Eğitim Stratejileri

Bu bölüm, Hymba 1.5B Temel ve Hymba 1.5B Talimat modelleri için önemli mimari kararları ve eğitim metodolojilerini açıklamaktadır.

Model Mimarisi

Hibrit mimari: Mamba, özetleme konusunda oldukça yeteneklidir ve genellikle mevcut tokena daha yakın odaklanır. Dikkat ise daha hassas olup, kesit bellek işlevi görür. Paralel olarak birleştirilmesi ile bu avantajlar birleştirilmektedir, ancak standart ardışık artırma yapılmamaktadır. SSM ve dikkat başlıkları arasında 5:1 parametre oranı seçilmiştir.
Sarıp pencere dikkati: Tam dikkat başlıkları, üç katmanda korunmuştur (ilk, son ve ortada), diğer %90 katmanda sarıp pencere dikkat başlıkları kullanılmıştır.
Çapraz katman KV önbellek paylaşımı: Her iki ardışık dikkat katmanı arasında uygulanmıştır. Bu, başlıklar arasındaki GQA KV önbellek paylaşımına ek olarak gerçekleştirilmiştir.
Meta-tokenlar: Bu 128 token, denetimsiz öğrenilebilir ve büyük dil modellerinde entropi çöküşü sorunlarına karşı yardımcı olmak ve dikkat sink fenomenini hafifletmeye katkıda bulunur. Ayrıca, genel bilgiyi bu tokenlarda depolayarak işlev görür.

Eğitim Yöntemleri ve İyi Uygulamalar

Ön eğitim: İki aşamalı temel model eğitimine yöneldik. İlk aşama, büyük bir öğrenme oranını korudu ve filtrelenmiş büyük veri kümesi kullanıldı. Sürekli öğrenme oranı düşürülerek 1e-5’ye ulaşıldı ve yüksek kaliteli veriler kullanılarak devam edildi. Bu yaklaşım, sürekli eğitim ve ilk aşamanın devamını sağlamaktadır.
Talimatla ince ayar: Talimat modeli ayarlama, üç aşamada gerçekleştirilmiştir. İlk olarak, SFT-1, kod, matematik, işlev çağrısı, rol oynama ve diğer görev odaklı veriler üzerinde eğitim sağlayarak güçlü akıl yürütme yetenekleri kazandırmaktadır. İkinci aşama olan SFT-2, modelin insan talimatlarını takip etmesini öğretmekte ve son aşama olan DPO, modelin insan tercihleri ile uyumlu hale getirilmesine ve güvenliğini artırmasına yardımcı olmaktadır.

Training pipeline for the Hymba model family divided into five sections that read (left to right) General pretraining, LR annealing, SFT-1, SFT-2, and DPO. — *Şekil 8. Hymba model ailesi için uyarlanan eğitim akışı*

Performans ve Verimlilik Değerlendirmesi

Hymba 1.5B modeli sadece 1.5T ön eğitim tokeni ile en iyi küçük LM performansını sergilemekte ve tüm transformer tabanlı LM’lerden daha iyi çıkış hızı ve önbellek verimliliği sağlamaktadır.

Örneğin, en güçlü baz model olan Qwen2.5 ile karşılaştırıldığında, 13 kat daha fazla tokenle ön eğitim almışken, Hymba 1.5B, ortalama %1.55 doğruluk artışı, 1.41x çıkış hızı ve 2.90x önbellek verimliliği elde etmiştir. 2T token eğitim alan en güçlü küçük LM olan h2o-danube2 ile karşılaştırıldığında ise, %5.41 ortalama doğruluk artışı, 2.45x çıkış hızı ve 6.23x önbellek verimliliği sağlanmıştır.

Model	# Parametre	Token Eğitimi	Token/saniye	Önbellek (MB)	MMLU 5-atış	ARC-E 0-atış	ARC-C 0-atış	PIQA 0-atış	Wino. 0-atış	Hella. 0-atış	SQuAD-C 1-atış	Ortalama
Open ELM-1	1.1B	1.5T	246	346	27.06	62.37	19.54	74.76	61.8	48.37	45.38	48.57
Rene v0.1	1.3B	1.5T	800	113	32.94	67.05	31.06	76.49	62.75	51.16	48.36	52.83
Phi 1.5	1.3B	0.15T	241	1573	42.56	76.18	44.71	76.56	72.85	48	30.09	55.85
Smol LM	1.7B	1T	238	1573	27.06	76.47	43.43	75.79	60.93	49.58	45.81	54.15
Cosmo	1.8B	.2T	244	1573	26.1	62.42	32.94	71.76	55.8	42.9	38.51	47.2
h20 danube2	1.8B	2T	271	492	40.05	70.66	33.19	76.01	66.93	53.7	49.03	55.65
Llama3.2 1B	1.2B	9T	535	262	32.12	65.53	31.39	74.43	60.69	47.72	40.18	50.29
Qwen 2.5	1.5B	18T	469	229	60.92	75.51	41.21	75.79	63.38	50.2	49.53	59.51
AMD OLMo	1.2B	1.3T	387	1049	26.93	65.91	31.57	74.92	61.64	47.3	33.71	48.85
Smol LM2	1.7B	11T	238	1573	50.29	77.78	44.71	77.09	66.38	53.55	50.5	60.04
Llama 3.2 3B	3.0B	9T	191	918	56.03	74.54	42.32	76.66	69.85	55.29	43.46	59.74
Hymba	1.5B	1.5T	664	79	51.19	76.94	45.9	77.31	66.61	53.55	55.93	61.06

Tablo 2. Hymba 1.5B Temel modelinin sonuçları

Talimatlı Modeller

Hymba 1.5B Talimat modeli, tüm görevlerin ortalamasında en yüksek performansı sergileyerek, önceki en iyi model Qwen 2.5 Talimat modelini %2 oranında geçmiştir. Özellikle, Hymba 1.5B, GSM8K/GPQA/BFCLv2’de sırasıyla 58.76/31.03/46.40 puan alarak diğer modellerin önünde yer almıştır. Bu sonuçlar, Hymba 1.5B’nin özellikle karmaşık akıl yürütme gerektiren alanlarda üstünlüğünü göstermektedir.

Model	# Parametre	MMLU ↑	IFEval ↑	GSM8K ↑	GPQA ↑	BFCLv2 ↑	Ortalama ↑
SmolLM	1.7B	27.80	25.16	1.36	25.67	-*	20.00
OpenELM	1.1B	25.65	6.25	56.03	21.62	-*	27.39
Llama 3.2	1.2B	44.41	58.92	42.99	24.11	20.27	38.14
Qwen2.5	1.5B	59.73	46.78	56.03	30.13	43.85	47.30
SmolLM2	1.7B	49.11	55.06	47.68	29.24	22.83	40.78
Hymba 1.5B	1.5B	52.79	57.14	58.76	31.03	46.40	49.22

Tablo 3. Hymba 1.5B Talimat modelinin sonuçları

Sonuç

Yeni Hymba ailesi, hibrit başlık yapılandırması ile dikkat başlıklarının yüksek çözünürlüklü hatırlama yeteneklerini ve SSM başlıklarının verimli bağlam özetleme özelliklerini birleştiriyor. Ayrıca, Hymba’nın performansını artırmak için öğrenilebilir meta-tokenlar tanıtılmıştır. Bu, dikkat ve SSM başlıkları için öğrenilmiş bir önbellek işlevi görerek modelin önemli bilgilere odaklanmasına yardımcı olmaktadır. Hymba’nın yol haritası, kapsamlı değerlendirmeler ve ablama çalışmaları ile birlikte, çeşitli görevlerde yeni bir başarılı performans sergileyerek, verimlilikte olduğu kadar doğrulukta da üstün sonuçlar elde etmiştir. Ayrıca, bu çalışma hibrit başlık mimarilerinin avantajlarını öne çıkararak, verimli LM’ler alanında gelecekteki araştırmalar için umut verici bir yön sunmaktadır.

Hymba 1.5B Temel ve Hymba 1.5B Talimat hakkında daha fazla bilgi edinmek için buraya ve buraya göz atabilirsiniz.

Teşekkürler

Bu çalışma, NVIDIA’daki birçok kişinin katkıları olmadan mümkün olmazdı, özellikle Wonmin Byeon, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Shih-Yang Liu, Matthijs Van Keirsbilck, Min-Hung Chen, Yoshi Suhara, Nikolaus Binder, Hanah Zhang, Maksim Khadkevich, Yingyan Celine Lin, Jan Kautz, Pavlo Molchanov ve Nathan Horrocks’a teşekkür ederiz.