NVIDIA NeMo Mikroservisleri ile Veri Dönme Sistemleri Kullanarak AI Ajanı Performansını Artırma

Teknolojinin ilerlemesiyle birlikte, ajans AI sistemleri, iş süreçlerini optimize etmek adına hayati bir rol oynamaya başladı. Geliştiricilerin, bu sistemleri sürekli olarak güncelleyerek, değişen iş ve kullanıcı ihtiyaçlarıyla uyumlu hale getirmeleri son derece önemlidir. Yapay zeka ve insan geri bildirimleri ile sürekli olarak geliştirilen bu ajanslar, etkinliklerini ve geçerliliklerini koruyabilir.

NVIDIA NeMo mikro hizmetleri, güçlü bir veri döngüsü oluşturmayı basitleştiren, tamamen hızlandırılmış ve kurumsal seviyede bir çözümdür. Bu sayede AI ajanslarının adaptif, verimli ve güncel kalmaları sağlanır.

Bu yazıda, NVIDIA NeMo mikro hizmetlerine kapsamlı bir giriş yaparak, AI ajanslarının en yüksek performansta çalışmasını sağlamak amacıyla ana yeteneklerine dair bilgiler sunacağım.

AI Veri Döngüsüne İhtiyaç

AI ajansları, geleneksel sistemlerin aksine, otonom olarak hareket eder, karmaşık senaryoları analiz eder ve dinamik ortamlarda kararlar alır. Çoklu ajans sistemleri oluşturan işletmelerde, AI ajanslarının platformlar arası entegre bir şekilde çalışması ve insan ekipleriyle iş birliği yapması, tüm sistemin güncel tutulmasını zorlaştırmaktadır.

Bu sorunların çözümü, her ajansı destekleyen modelin geri bildirimlerle sürekli olarak uyumlu hale getirildiği bir veri döngüsü stratejisi benimsemektir. Bir veri döngüsü, insan geri bildirimleri, gerçek dünya ve AI etkileşimlerinden elde edilen verilerin sürekli olarak sistemi güçlendirdiği kendi kendini besleyen bir döngüdür (Şekil 1).

A diagram shows how to set up an AI data flywheel using NVIDIA NeMo microservices, for storage, training and validation datasets, custom test datasets, a fine-tuned model available for inference, and a customize-eval-promote loop with NeMo Customizer and NeMo Evaluator. — *Şekil 1. Veri döngüsü örnek mimarisi*

Bir AI veri döngüsünü etkili bir şekilde sürdürmek için, veri yaşam döngüsünü yönetmek, ajans performansını değerlendirmek için merkezi geri bildirim sistemleri oluşturmak ve güncellemeleri zamanında sağlamak kritik öneme sahiptir. Bu, yanıtların eski hale gelmesini önler ve zaman alıcı insan müdahalelerine olan bağımlılığı azaltır.

NVIDIA NeMo Mikro Hizmetleri ile AI Ajansları Geliştirin ve Dağıtın

NVIDIA NeMo mikro hizmetleri, veri döngüleri oluşturmak için uçtan uca, tamamen hızlandırılmış bir platform sunar. Endüstri standartı API’ler ve Helm şemaları kullanarak ajans sistemlerinin geliştirilmesini ve dağıtımını basitleştirebilirsiniz. Ayrıca, AI ajanslarınızı en son bilgilerle sürekli güncelleyebileceğiniz veri döngüleri kurabilirken, özel verileriniz üzerinde tam kontrol sahibi olursunuz.

Bunun yanı sıra, istediğiniz GPU hızlandırılmış ortamda çalışacak güvenli ve esnek iş akışları geliştirebilir, kurumsal düzeyde güvenlik ve destekle yüksek performanslı sistemler inşa edebilirsiniz.

NeMo Mikro Hizmetleri ile AI Veri Döngülerini Basitleştirin

NeMo mikro hizmetleri, AI ajanslarının yaşam döngüsünü yönetmek ve verimli veri döngüleri oluşturmak için güçlü bir araç seti sunar. Bu araçlar, sürekli olarak model güncellemeleri sağlarken, AI odaklı sistemlerde sürekli iyileştirme, adaptasyon ve birikimli değer sağlamayı mümkün kılar:

NeMo Kuratör: Yüksek kaliteli, çok modlu eğitim verilerini düzenlemek için GPU hızlandırmalı modüller.
NeMo Özelleştirici: Alt görevler için büyük dil modelleri (LLM) üzerine yüksek performanslı, ölçeklenebilir bir mikro hizmet.
NeMo Değerlendirici: Özelleştirilmiş AI modellerinin akademik ve özel kıyaslamalarla otomasyona dayalı değerlendirilmesi.
NeMo Alıcı: Çok modlu veri setleri için AI sorgu motorları oluşturmak için ince ayar yapılmış mikro hizmetler.
NeMo Koruma: Güvenli etkileşimler sağlamak için sağlam güvenlik katmanı oluşturma aracı.
NIM Operatörü: NeMo ve NIM mikro hizmetlerinin Kubernetes kümelerinde dağıtımını, yönetimini ve ölçeklenmesini kolaylaştıran bir Kubernetes Operatörü.

NVIDIA NeMo ile Veri Döngüsü Oluşturmanın Gerçek Dünya Örneği

NVIDIA’da, NeMo mikro hizmetlerini kullanarak sürekli olarak internal AI destekli sistemimizi geliştiren bir veri döngüsü oluşturuyoruz. Bu sistem, çalışanların görevlerde, bilgi elde etmede ve sistem navigasyonunda yardımcı olan NVInfo botudur.

NVInfo botu, sorguları uzman ajanslara yönlendiren bir yönlendirme ajansını içerir. Bu yönlendirme, NeMo Kuratör, NeMo Alıcı ve NVIDIA NIM kullanılarak yapılan bir geri alma sistemi ile desteklenmektedir ve bu da uzman ajansların RAG sistemleri aracılığıyla daha fazla etkinlik göstermesini sağlar (Şekil 2).

A diagram shows various errors and inefficiencies in this agentic system that can be captured, evaluated, and optimized using the data flywheel. — *Şekil 2. NVInfo bot veri döngüsü mimarisi*

Bir veri döngüsü kurarak, NVIDIA NeMo mikro hizmetlerinin güçlendirdiği NVInfo botunun yönlendirme ajansı, %96’nın üzerinde bir doğruluk oranı elde ediyor. Bu, daha küçük bir Llama-3.1-8B modelinin, hızlandırılmış insan geri bildirim döngüleri ile sürekli olarak uyumlu hale getirilmesi sayesinde mümkün oluyor. Ayrıca, bu optimizasyon, bir GPU üzerindeki yükü iki GPU yerine tek bir GPU’da çalıştırarak toplam sahip olma maliyetini (TCO) azaltmayı ve gecikmeyi %70’ten fazla iyileştirmeyi sağlıyor.

Bu yaklaşım, daha küçük modeller ile başlayarak, sürekli optimizasyon ile üstün performans elde edilmesini sağlıyor. Bu da daha düşük gecikme ve düşük TCO avantajı sunuyor. NeMo Koruma’yı kullanarak, botun etkileşimlerinin konuya odaklanmasını sağlayabilir, dil, alaka düzeyi ve toksisitede moderasyon yapabilirsiniz.

NVIDIA Blueprint ile Veri Döngüsü Kurulumunu Hızlandırın

NVIDIA Blueprints, belirli kullanım durumlarına yönelik özelleştirilebilir AI referans iş akışlarıdır. Bu sayede, jeneratif AI uygulamalarını oluşturmak ve dağıtmak için örnek uygulamalar, referans kodları ve özel belgeler sağlar.

Yakında NVIDIA, AI veri döngüleri inşa etmede yardımcı olacak Veri Döngüsü Blueprint’ini sunacak. Bu tasarımla, modelleri özel verilere bağlayacak ve sürekli iyileştirmek için kullanacak uygulamalar geliştirmek için bir başlangıç sağlanacak. NVIDIA NeMo bu süreci kolaylaştıracak, NVIDIA AI Foundry ise veri döngüsünü işlemek için üretim ortamı olarak hizmet edecektir.

LlamaStack Üzerinde NeMo

NVIDIA NeMo mikro hizmetleri, LlamaStack üzerinde sunulacak, bu sayede NIM mikro hizmetleriyle birlikte kullanılabilecektir. LlamaStack’in birleşik API’leriyle, veri döngüleri kurmak ve generatif AI uygulamaları oluşturmak için NeMo’yu sorunsuz bir şekilde kullanabilirsiniz.

Modüler Yaklaşım ve Birleşik Platform

NeMo mikro hizmetleri, veri döngüleri oluşturmak için uçtan uca bir platform sunarken, uygulamanızı geliştirmek için mikro hizmetleri tek başına kullanma esnekliğine de sahipsiniz.

NeMo Kuratör

Yüksek kaliteli verileri etkin veri akışlarıyla düzenlemek, **ajans AI** geliştirmek için kritik öneme sahiptir. Bu, modellerin doğru, ilgili ve çeşitli veri setleri üzerinde eğitim almasını sağlayarak performans ve güvenilirliği artırır.

NeMo Kuratör, 100+ PB veriyi ölçeklendirebilen yüksek kaliteli çok modlu veri setlerini düzenlemek için GPU hızlandırmalı modüller sunar. Bu araç, NVIDIA RAPIDS kütüphaneleri ile güçlendirilmiştir ve bu sayede metin işleme hızını 16 kat, video işleme hızını 89 kat artırarak GPU destekli işlemeyi mümkün kılar (Şekil 3).

A diagram shows the 89x improvements in video data processing time with GPU-accelerated NVIDIA NeMo Curator as opposed to traditional CPU. — *Şekil 3. NeMo Kuratör ile video veri işleme geliştirmeleri*

*Performans, 2K CPU ve 128 DGX düğümündeki ISO güç tüketimi ile karşılaştırılmıştır.

Veri çıkarımı, işleme ve kalite değerlendirmesinin yanı sıra NeMo Kuratör, sentetik veri üretimini de destekler. Bu özellik, mevcut veri setlerini artırmak veya gerçek dünya verileri yetersiz olduğunda tamamen yeni veri setleri oluşturmanıza olanak tanır.

Yüksek kaliteli düzenlenmiş veri setleri üreterek, NeMo Kuratör, LLM eğitim verimliliğini önemli ölçüde artırır ve böylece model doğruluğunu geliştirir.

NeMo Özelleştirici

NeMo Özelleştirici, hızlı ve yüksek performanslı ince ayar yetenekleri sunan ölçeklenebilir bir mikro hizmettir. Bu, denetimli ince ayar ve LoRA içermektedir. Çoklu GPU ve tek düğüm konfigurasyonları için geliştirilebilir ve eğitim süresi ile verimliliği optimize etme olanağına sahiptir (Şekil 4).

A bar chart shows 1.8x improvement in throughput between Llama-3-8B with NeMo Customizer compared to using leading market alternatives for customization. — *Şekil 4. NeMo Özelleştirici ile Llama-3-8B özelleştirmesi karşılaştırması*

Llama-3-8B üzerine özelleştirme, 8x H100 80G SXM ile gerçekleştirilmiştir.

NeMo Özelleştirici ile üretilen modeller, NVIDIA NIM ile verimli bir şekilde dağıtılabilir (Şekil 5). Helm şemaları aracılığıyla basit bir yapılandırma ile tek bir API çağrısı kullanarak ince ayar yapabilirsiniz. Bu, hem yerel hem de bulut ortamlarında Kubernetes, Slurm ve bağımsız Docker kurulumlarıyla kolay geliştirme ve dağıtım sağlar.

A diagram shows a sample architecture to use NeMo Customizer to fine-tune LLMs. — *Şekil 5. NVIDIA NeMo Özelleştirici kullanım mimarisi*

NeMo Değerlendirici

Sürekli ve tutarlı değerlendirmeler, ajansların en iyi performansı göstermesi için çok önemlidir. Bu, geliştirme sürecinde olduğu kadar, üretim aşamasında da model ve boru hatları değerlendirmelerini içerir.

NeMo Değerlendirici, LLM’ler, geri alma modelleri, RAG ve ajans boru hatları için esnek ve ölçeklenebilir bir değerlendirme çözümü sunar. Bu, özelleştirilmiş ve 20’den fazla endüstri standartı kıyaslama ile otomatik değerlendirmeler yapılmasına olanak tanır.

NeMo Değerlendirici, ekip içinde verimli ve tutarlı değerlendirmeleri sağlamak için paylaşılabilir yapılandırma dosyalarını kullanır ve ölçekli değerlendirme süreçlerini tek bir API çağrısıyla basitleştirir (Şekil 6).

A diagram shows sample architecture using NeMo Evaluator microservice. It showcases the usage along with NeMo data store and access to NIM-based evaluators. — *Şekil 6. NVIDIA NeMo Değerlendirici kullanım mimarisi ve yetenekleri*

Değerlendirme süreçlerini kolaylaştıran NeMo Değerlendirici, organizasyonların model performansını optimize etmelerine ve etkili veri döngüleri oluşturmalarına yardımcı olur.

NeMo Alıcı

Etkin veri keşfi, etkili bir veri döngüsünü sürdürebilmenin temel taşlarındandır. Bu, AI ajanslarının en güncel ve ilgili bilgileri edinerek sürekli öğrenmelerini ve gelişmelerini sağlar.

NeMo Alıcı, çok modlu veri çıkartımı ve geri almak için hızlandırılmış AI destekli sistemler sunar ve bu sayede doğru, bağlama uygun yanıtlar verir.

NeMo Alıcı, gelişmiş çıkarma, gömme ve tekrar sıralama mikro hizmetleri ile, geri alma doğruluğunu ve verimliliği artırır. Ayrıca, çok dilli ve çapraz dilli soru-cevap geri alımını destekler. Depolama verimliliğini artırırken, dinamik uzunluk ve uzun bağlam desteği ile depolama gereksinimlerini %35 azaltır ve TCO’yu düşürür. GPU’lar sayesinde indeksleme hızını artırarak, RAG operasyonlarını hızlı ve maliyet etkili bir şekilde ölçeklendirme imkanı sunar.

NeMo Alıcıyı, bugün NVIDIA API Kataloğu’ndan deneyebilirsiniz.

A RAG architecture diagram shows three phases: data extraction, retrieval, and generation powered by NVIDIA NeMo Retriever microservices and accelerated with NVIDIA cuVS. — *Şekil 7. NeMo Alıcı ile RAG mimarisi*

NeMo Koruma

AI ajansları, karar verme ve müşteri etkileşimleri gibi kritik iş süreçlerinde önemli bir rol oynadığından, AI modellerinin güvenli ve organizasyonel politikalara uyumlu kalmasını sağlamak son derece gereklidir.

NeMo Koruma, ajans AI uygulamalarında AI koruma katmanlarını tanımlamayı, orkestra etmeyi ve uygulamayı kolaylaştırır. Politika ihlallerinin %99’unu yalnızca sub-saniye gecikmesi ile tespit eder. İçerik moderasyonu, konu dışı diyalog moderasyonu, yanılsama azaltma, jailbreak tespiti ve kişisel tanımlayıcı bilgilerin korunması gibi çeşitli güvenlik önlemlerini uygular.

NeMo Koruma, AI etkileşim sürecinin her aşamasında programlanabilir güvenlik katmanları eklemeyi kolaylaştırır. Çoklu uygulamalar için çeşitli koruma yapılandırmalarını destekleyerek ölçeklenir. Üçüncü taraf ve topluluk güvenlik modelleri ile bütünleşir.

A diagram shows NeMo Guardrails architecture, highlighting content moderation, dialog management, and integration with third-party models and NIM safeguards. — *Şekil 8. NeMo Koruma kullanım mimarisi ve yetenekleri*

NIM Operatörü

NeMo ve NIM mikro hizmetleri, kapalı kapalı Kubernetes dağıtımları ve Helm şemaları kullanarak bireysel olarak dağıtılabilir. Ancak, birden fazla NIM ve NeMo mikro hizmeti, NVInfo Bot gibi karmaşık ajans sistemleri oluşturmak için bir araya getirildiğinde, bu mikro hizmetlerin sonlandırılması ve yaşam döngüsü yönetimi büyük zorluklar oluşturabilir.

NVIDIA NIM Operatörü, Kubernetes’e özgü Operatörler ve Özelleştirilmiş Kaynak Tanımlamaları (CRD) ile AI çıkarım iş akışları orkestrasını basitleştirir. Bu, otomatik dağıtım, yaşam döngüsü yönetimi, gecikmeyi azaltmak için akıllı model ön önbellekleme ve basit auto-scaling sağlayarak, altyapı karmaşıklıklarını ortadan kaldırır. Böylece, yeniliğe odaklanmanızı sağlar.

NeMo Mikro Hizmetleri ile Başlayın

Yapay zeka endüstrileri dönüştürmeye devam ederken, AI ajanslarını güncel ve etkili tutmanın önemi artmaktadır. NVIDIA NeMo mikro hizmetleri, sürekli adaptasyon aracılığıyla ajans AI sistemlerinizin performansını en üst düzeye çıkarmanızı sağlarken, daha iyi güvenlik, gizlilik, kontrol ve entegrasyon sunan veri döngüleri kurmayı kolaylaştırır.

NVIDIA NeMo mikro hizmetlerinin indirilebilir hale geldiğinde bildirilmek için kaydolun ve daha fazla bilgi edinmek için Sürekli Gelişen AI Ajansları İçin Ölçeklenebilir Veri Döngüleri Oluşturma GTC oturumunu izleyin.

SON DAKİKA