SON DAKİKA

Nvdia

NVIDIA Veri Uçurumu Mavisi ile Model Distilasyonu ile Verimli AI Ajanları Oluşturma

Şirketlerin agentik yapay zeka (AI) kullanımı hızla arttıkça, ekiplerin akıllı uygulamaları genişletirken çıkarma maliyetlerini yönetme konusunda karşılaştığı zorluklar da artıyor. Büyük dil modelleri (LLM’ler) güçlü performans sunuyor, ancak yüksek hesaplama gereksinimleri ile birlikte geliyor. Bu da genellikle yüksek gecikme süresi ve maliyetlere neden oluyor. 

Diğer yandan, geliştirme iş akışları – değerlendirme, veri kürasyonu ve ince ayar gibi – çoğunlukla manuel olarak sürdürülüyor. Bu işlemler zaman alıcı, otomatikleştirilmesi zor ve etkili bir şekilde ölçeklendirilemeyen süreçlerdir.

Durumu daha da karmaşık hale getiren, AI ajanları‘nın mantıksal düşünme, araç yönlendirme ve özetleme gibi görevler için giderek daha fazla özelleşmiş model‘e ihtiyaç duymasıdır. Her bir bileşenin farklı performans özellikleri ve optimizasyon gereksinimleri bulunuyor; bu da onları ölçekli bir şekilde değerlendirmeyi ve ayarlamayı zorlaştırıyor.

Bunları aşmak adına NVIDIA, veri flywheel’ları inşa etmek için NVIDIA AI Blueprint‘ini sunuyor. Bu referans mimaris, NVIDIA’nın NeMo mikro servisleri üzerine inşa edilmiştir. Bu blueprint, ekiplerin LLM’leri daha küçük, daha ucuz ve daha hızlı modellere sürekli olarak damıtarak doğruluğu korumasını sağlıyor ve AI ajanı etkileşimlerinden elde edilen gerçek dünya üretim trafiği‘ni kullanıyor.

Bu blog, Veri Flywheel Blueprint‘in nasıl çalıştığını, agentik araç çağırma etrafında gerçek dünya use case’ine nasıl uygulanacağına ve kendi agentik AI iş akışlarınız için veri flywheel’lar oluşturmak üzere nasıl kolayca yapılandırılacağına dair detaylar sunmaktadır. Bu demo defteri, önceden oluşturulmuş bir müşteri hizmetleri ajanı veri kümesinde flywheel’ı uygulamalı hale getiriyor.

18 Haziran’da, canlı bir web seminerine katılın; burada uzmanlarımız NVIDIA NIM ve NeMo mikro servislerinin veri flywheel’larını nasıl güçlendirdiğini açıklayacak. 26 Haziran’da canlı yayın Q&A oturumuna katılarak, bu son blueprint ile veri flywheel’ları inşa etme sürecine daha derinlemesine dalın.

Blueprint Nasıl Çalışır?

Bu blueprint’in bu versiyonu, ekiplerin büyük temel modellerin (örneğin, 70B parametre) yeteneklerini daha küçük, daha verimli alternatiflerle çoğaltmalarına yardımcı olmak için tasarlanmıştır. Mevcut ve yeni yayımlanan modellerin üretim görevleri temelinde sürekli olarak karşılaştırılmasını sağlamakta, umut verici adayların ince ayarını yaparak ve en iyi performans gösteren daha küçük modellerin ortaya çıkmasına olanak tanımaktadır. Bu sistem, ekiplerin gecikmeyi ve çıkarım maliyetlerini azaltmalarına yardımcı olurken model doğruluğunu koruma imkânı sunuyor.

Veri Flywheel Blueprint’in kalbinde, Flywheel Orchestrator Service yer alıyor. Bu, NeMo mikro servisleri ile doğrudan etkileşim kurmanın karmaşıklığını soyutlayan birleşik bir kontrol düzlemidir. Flywheel sisteminin beyni olarak hareket eden Orchestrator API’si, veri flywheel işlerini, çeşitli modüler NeMo mikro servislerini kullanarak koordine eder:

  • NVIDIA NeMo Customizer, hafif LoRA tabanlı ince ayar için
  • NVIDIA NeMo Evaluator, LLM-as-a-judge skorlama yöntemi ile otomatik değerlendirmeler için
  • NeMo Datastore, yapılandırılmış veri setleri ve nesneleri yönetmek için
  • NeMo Deployment Manager, aday modelleri (NIM’leri) dinamik olarak hizmete açmak ve sunmak için

Flywheel’ın nasıl çalıştığına dair adım adım bir açıklama:

1. Adım: Günlük İnişi

Öğretici temel NIM’den (örneğin, büyük bir 70B modeli) gelen üretim istem/yanıt günlükleri, bir Elasticsearch dizinine yüklenir. Bu günlükler, OpenAI uyumlu formatı takip eder.

2. Adım: Parti Etiketleme

Her günlüğe, sistemin her ajan düğümü için görev ile veriyi izole edip işleyebilmesi amacıyla workload_id gibi meta veriler eklenir.

3. Adım: Veri Seti Oluşturma

Orkestratör, günlüklerin tekrarlamasını temizler ve bunları eğitim ve değerlendirme için görev odaklı veri setlerine dönüştürür. Önemli bir nokta, bu veri setlerinin herhangi bir dış gerçeklik etiketi‘ne ihtiyaç duymaması—sadece orijinal modelin yanıtlarına dayanmalarıdır—manuel etiketleme ihtiyacını ortadan kaldırır. Bu veri setleri NeMo Datastore’da saklanır.

4. Adım: İnce Ayar İşleri

NeMo Customizer kullanarak, LoRA adaptörleri ile denetimli ince ayar işleri başlatılır. Her iş, NeMo Datastore’da saklanan daha büyük öğretmen modelinin bilgilerinin, el yapımı veri setlerine ihtiyaç duymadan, daha küçük görev özel adaylara damıtılmasını sağlar.

5. Adım: Değerlendirme Çalışmaları

NeMo Evaluator, birkaç aday NIM modelini üç değerlendirme yöntemiyle karşılaştırarak sınar:

  • base-eval: Ham günlükler üzerinde sıfırdan değerlendirme
  • icl-eval: Bağlam bazlı birkaç örnek ile değerlendirme
  • customized-eval: İnce ayar boru hatları sonrası değerlendirme

6. Adım: Skorlama ve Toplama

Model çıktıları, NeMo Evaluator kullanılarak, LLM-as-a-judge dahil olmak üzere, skorlama işlemlerinden geçirilir ve sonuçlar Orchestrator API’si üzerinden geri rapor edilir.

7. Adım: İnceleme ve Terfi

Geliştiriciler ve yöneticiler, program aracılığıyla metriklere ulaşabilir, nesneleri indirebilir, takip deneylerini başlatabilir veya en iyi çalışan adayları üretim için terfi ettirebilir.

Bütün bu döngü zamanlanabilir veya isteğe bağlı olarak tetiklenebilir, böylece otomatik, ölçeklenebilir bir sistem oluşturulabilir. Bu sistem, daha küçük, daha hızlı ve daha maliyet etkin modellerin sürekli olarak ortaya çıkmasını sağlarken, daha büyük temel modelin doğruluğunu da korur.

Agentik Araç Çağırma için Veri Flywheel Blueprint’ini Benimsemek

Veri Flywheel Blueprint’inin değerini ve kullanımını göstermek için, yüksek etkili bir kullanıma örnek olarak: Agentik Araç Çağırma üzerine uygulama yaptık. Bu, üretim AI ajanlarının yapılandırılmış API çağrıları ile harici sistemlerle güvenilir bir şekilde arayüz oluşturması gerektiği için özellikle önemlidir.

NVIDIA’nın AI sanal asistanları için AI Blueprint‘inden yola çıkarak, müşteri destek görevleri gibi ürün soru-cevap, sipariş takibi, iade gibi durumlar için çoklu araç gereç tasarlandı. Başlangıçta, bu ajan Llama-3.3-70B-instruct modeli ile yüksek doğrulukla çalışan araç çağırma özelliği sağlıyordu. Amacımız daha düşük maliyet ile daha küçük bir modelin daha büyük modelin doğruluğunu yakalamasını sağlamaktı. Üretimde bu, gerçek müşteri etkileşimleri tarafından yönlendirilecek şekilde araç çağırma performansını sürekli geliştirilmesi hedeflenmiştir.

Üretim trafiğini simüle etmek için doğal dil sorguları sentetik olarak üretildi ve ajanın araç çağırma davranışı, OpenAI uyumlu istek-yanıt günlüklerinde yakalandı. Bu günlükler, hem eğitim hem de değerlendirme veri setlerinin temeli haline geldi.

Bu yapı ile, Veri Flywheel Blueprint kullanarak üç optimizasyon deneyinde çalıştık ve daha küçük aday modellerin araç çağırma performansını değerlendirdik:

  1. Sıfırdan yönlendirme (`base-eval`): Modeller (büyük temel NIM dahil) üretim benzeri istemler üzerinde herhangi bir önceki örnek veya özelleştirme olmadan değerlendirildi. Bu, daha büyük modelin orijinal davranışını yakalayan bir referans noktası sağlar.
  2. Bağlam yöntemi öğrenimi (`icl-eval`): Her isteğe, gerçek üretim trafiğinden alınan birkaç örnek eklendi. Bu örnekler, flywheel tarafından otomatik olarak örneklenen ve biçimlendirilen ICL yapılandırmasına (config.yaml) dayanmaktadır. Bu yaklaşım, modelin yalnızca bağlamsal yönlendirme ile ne kadar iyileşebileceğini test eder.
  3. LoRA ile denetimli ince ayar (`customized-eval`): `training_config` ve `lora_config` bölümleri kullanılarak, LoRA adaptörleriyle modeller ince ayar yapıldı. Bu modeller, üretim günlüklerinden elde edilen özel veri setleri ile eğitim alındı ve base-eval ve icl-eval karşısında kazanımları ölçmek amacıyla değerlendirildi.

NeMo Evaluator, LLM-as-judge yeteneklerini kullanarak tüm model çıktılarının otomatik olarak puanlanmasını sağladı, insan etiketlerine ihtiyaç kalmadı. Her çalışmada `function_name_and_args_accuracy` ve `tool_calling_correctness` gibi yapılandırılmış metrikler kaydedildi ve incelenmek üzere Orchestrator API’si üzerinden erişime sunuldu. Bu süreç tamamen otomatik hale getirildi; böylece geliştiriciler en iyi çalışan adayları terfi ettirme raporlarına programatik olarak erişebildi.

Sonuç: SFT-LoRA kullanarak ince ayar yapılan bir Llama-3.2-1B modeli, orijinal 70B modelinin araç çağırma doğruluğunun %98’ini elde etti. Bu başarı, flywheel içine sürekli olarak akan trafiğin veri akışından yararlanarak yapılan otomatik, tekrarlanan ince ayar ve değerlendirme döngüleri sayesinde sağlandı.

Bunun sonucunda, doğruluğunu korurken önemli derecede hafif bir model ortaya çıkmıştır; bu model, gecikmeyi ve maliyetleri önemli ölçüde iyileştirmektedir. Özellikle, optimize edilmiş Llama-3.2-1B modeli yalnızca bir GPU gerektirirken, orijinal Llama-3.3-70B’nin çalışması için iki GPU’ya ihtiyaç bulunmaktadır.

Daha fazla bilgi edinmek için, bu demo videosunu izleyerek blueprint’i hayata geçirme sürecini keşfedebilirsiniz.

Blueprint’i Yapılandırmak ve Çalıştırmak

Veri Flywheel Blueprint’ini başlatmak için önce ortamınızı hazırlamanız ve gerekli hizmetleri dağıtmanız gerekecek. Ayrıntılı talimatlar, bu GitHub repo okumasında bulunmaktadır, ancak genel adımlar aşağıdaki gibidir:

  1. Kişisel bir API anahtarı oluşturmak, NeMo mikro servislerini dağıtmak, NIM olarak barındırılan modellere erişim sağlamak ve model indirmek için
  2. NeMo mikro servisleri platformunu dağıtmak
  3. Veri Flywheel Orkestratörü’nü kurmak ve yapılandırmak

Ortam hazırlandıktan sonra, config.yaml dosyasını kullanarak modellerinizi ve iş akışlarınızı yapılandıracaksınız. Bu dosya, dağıtacağınız NIM modellerinden ince ayar (örneğin, LoRA) ve değerlendirme (örneğin, ICL, LLM-as-a-Judge) için ayarları tanımlar.

Not: Bu dosya, sistem başlatıldığında yüklenir. Ayarların statik kalması gerekir. Herhangi bir şey güncellemek için, hizmetleri durdurmalısınız, YAML dosyasını değiştirmeli ve yeniden dağıtmalısınız.

Model Ayarları

Dağıtılacak ve değerlendirilecek NIM’i belirtin. Model adını, bağlam uzunluğunu, GPU sayısını ve özelleştirme gibi diğer seçenekleri ayarlayabilirsiniz. NeMo Customizer tarafından ince ayar için desteklenen modeller‘i kontrol edin.

nims:
  - model_name: "meta/llama-3.2-1b-instruct"
    context_length: 32768
    gpus: 1
    pvc_size: 25Gi
    tag: "1.8.3"
    customization_enabled: true

İnce Ayar

İnce ayar parametrelerini belirtin. Bunlar arasında eğitim türü, ince ayar türü, batch boyutu ve eğitim epok sayısı bulunmaktadır.

training_config:
  training_type: "sft"
  finetuning_type: "lora"
  epochs: 2
  batch_size: 16
  learning_rate: 0.0001

lora_config:
  adapter_dim: 32
  adapter_dropout: 0.1

Bağlam Öğrenimi (ICL) Ayarları

Modelleri ICL modu ile değerlendirirken kullanılan kaç tane birkaç örneğin bulunacağını ve bunların bağlam pencerelerini yapılandırın.

icl_config:
  max_context_length: 32768
  reserved_tokens: 4096
  max_examples: 3
  min_examples: 1

Değerlendirme Ayarları

Her değerlendirme görevi için verilere nasıl ayrılacağını kontrol edin.

data_split_config:
  eval_size: 20
  val_ratio: 0.1
  min_total_records: 50
  random_seed: null
  limit: null

eval_size: Değerlendirme için kullanılan örnek sayısı

val_ratio: Eğitim verileri arasından validation için kullanılan oran

Flywheel Görevini Başlatmak

Bir kez yapılandırıldıktan sonra, mikro servise basit bir API çağrısıyla görev başlatılabilir.

# client_id: Trafik üreten uygulama veya dağıtımın tanımlayıcısı
# workload_id: Mantıksal görev / rota / ajan düğümü için sabit tanımlayıcı
curl -X POST http://localhost:8000/api/jobs 
  -H "Content-Type: application/json" 
  -d '{"workload_id": "tool_router", "client_id": "support-app"}'

Başarılı bir gönderim, çeşitli modeller arasındaki performans karşılaştırması için kullanılabilecek araç çağırma doğruluk metriklerini döndürür.

"scores": {
  "function_name_and_args_accuracy": 0.95,
  "tool_calling_correctness": 1
}

Blueprint’i Özel İş Akışlarına Genişletmek

Blueprint, herhangi bir alt görev için veri flywheel’lar oluşturmak üzere kolayca özelleştirilebilen bir referans iş akışıdır. NVIDIA, partner ekosisteminde bu tasarımın erken benimseme hikayelerini görmüştür.

  • Weights & Biases, NVIDIA API kataloğunda özelleştirilmiş bir veri flywheel blueprint’i sunmaktadır; bu da ajan izlenebilirliği ve gözlemlenebilirliği, model deney takip ve değerlendirme ile raporlama araçlarıyla zenginleştirilmiştir.
  • Iguazio, bir QuantumBlack, AI by McKinsey gibi makine öğrenimi firmasının satın alması ile, AI platformu için kendi özel veri flywheel’ını oluşturarak blueprint’i uyarlamıştır. Bu, NVIDIA API kataloğunda da bir örnek olarak mevcuttur.
  • Amdocs, bu blueprint’i kendi amAIz platformu‘sında entegre ederek, CI/CD sürecine doğrudan LLM ince ayarı ve değerlendirmeyi eklemiştir. İçerdiği otomasyon ve iyileştirmeler sayesinde, Amdocs yeni temel modeller ortaya çıktıkça ajanlarının doğruluğunu ve performansını sürekli olarak artırma olanağına sahip olmuştur—ayrıca geliştirme döngüsündeki potansiyel sorunları da erken tespit etmiştir.
  • EY, gerçek zamanlı model optimizasyonu ile EY.ai agentic platformunu güçlendirmek için blueprint’i entegre ediyor. Bu, vergi, risk ve finans alanlarında kendini geliştiren ve maliyet etkin ajanlar yaratmayı sağlıyor.
  • VAST, VAST AI İşletim Sistemi’ni NVIDIA’nın Veri Flywheel Blueprint’i ile entegre ederek, mali durum, sağlık ve bilimsel araştırmalar gibi endüstriler için zeki AI boru hatlarının teslimatını hızlandırmak üzere, gerçek zamanlı veri toplama, zenginleştirme ve geri bildirim süreçleri tasarlıyor.

Kendi Kullanım Senaryonuz İçin Bir Veri Flywheel Oluşturun

NVIDIA AI Blueprint for data flywheels‘ı keşfedin ve NVIDIA API kataloğunda kurulum kılavuzları, uygulama detayları ve eğitimler üzerine dalın. Blogda bahsedilen agentik araç çağırma kullanımı için flywheel oluşturmanın el ile tutulur uygulaması için video eğitimine göz atın.

Yeni NVIDIA NeMo Agent araç seti ile agentik iş akışları geliştiren geliştiriciler, bu blueprint etrafında veri flywheel’ları sorunsuz bir şekilde inşa edebilir ve araç setinin değerlendirme ve profil oluşturma yeteneklerini entegre edebilir.

18 Haziran’da, canlı bir web seminerine katılın; burada uzmanlarımız NVIDIA NIM ve NeMo mikro servislerinin veri flywheel’larını nasıl güçlendirdiğini açıklayacak. 26 Haziran’da canlı yayın Q&A oturumuna katılın ve bu en son blueprint ile veri flywheel’larını kolayca inşa etme sürecine dalın.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri