LLM Yayını, bir modelin yanıtını gerçek zamanlı olarak, tokenlar halinde, üretilirken kısım kısım göndermektedir. Çıktı akışı, modern LLM uygulamalarının temel bir bileşeni haline gelmiştir. Geleneksel yöntem, tam LLM yanıtlarını birkaç saniye beklemek zorunda kalır ve bu da karmaşık uygulamalarda gecikmelere yol açar.
Yayın ile ilk token süresi (TTFT)—soru gönderiminden ilk üretilen tokena kadar geçen süre—kullanıcı algısı için kritik hale gelir.
Ayrıca, yayın mimarileri TTFT’yi önemli ölçüde azaltır. Yanıtın bir kısmının, prompt işlendikten hemen sonra başlatılmasına olanak tanır ve ilk bekleme sürelerini kısaltır. Aynı zamanda, tokenler arası gecikme (ITL) büyük ölçüde değişmeden kalır, çünkü bu durum modelin üretim hızını yansıtır. Başlangıç yanıt verme hızının (TTFT) sürekli akış kapasitesinden (ITL) ayrılması, daha hızlı kullanıcı geri bildirimine olanak tanır. Bu, token üretim mekanikleri üzerinde köklü değişiklikler gerektirmez.
Yayın işlevselliğini uygulayarak, geliştiriciler daha akıcı kullanıcı deneyimleri yaratır; böylece doğal bir konuşma akışına benzer bir deneyim sunar. Ancak, işletmeler LLM’ler için yayın mimarilerini benimseme sürecinde, gerçek zamanlı etkileşimleri korumanın zorluğu artar. Geleneksel güvenlik çözümleri, yayının düşük gecikmeli yanıtlar ile içerik onaylama arasında denge sağlamakta, sürekli güvenlik kontrollerinin hesaplama yükünü yönetmekte zorluk yaşarlar. Bu zorluklar, altyapı maliyetlerini artırabilir ve kullanıcı deneyiminde parçalanmalara yol açarak, prompt enjeksiyonu veya veri sızıntısı gibi ortaya çıkan tehditlere karşı daha fazla savunmasız hale getirebilir.
NVIDIA NeMo Guardrails
NVIDIA NeMo Guardrails bu sorunları ele alarak, LLM yayın mimarileri için daha kolay bir entegrasyon yolu sunar. Politikaya dayalı güvenlik kontrollerini modüler doğrulama boru hatlarıyla birleştirir. Geliştiricilere düşük gecikme sürelerinden ödün vermeksizin güvenlik duvarlarını kullanma imkanı tanır. Bu yazı, NeMo Guardrails’in gerçek zamanlı AI güvenliğini nasıl basitleştirdiğini keşfedecek ve kullanıcı güvenini nasıl artırdığını ele alacaktır.
NeMo Guardrails ile Yayın: Gecikmeyi ve Tepkime Süresini Optimize Etme
NeMo Guardrails çıkış raylarını varsayılan olarak senkronize bir şekilde işler; yani tüm LLM yanıtı, kullanıcıya geri gönderilmeden önce üretilir ve doğrulanır. Bu, kapsamlı güvenlik kontrollerini sağlarken gecikmelere neden olabilir, özellikle de uzun yanıtlar söz konusu olduğunda. Yayın modu etkinleştirildiğinde, yanıt üretimi ve doğrulama ayrılır, böylece tokenlar kısım kısım gönderilecektir ve güvenlik kurallarına uyulacaktır.
Yayın Modunun NeMo Guardrails’teki İşleyişi
Yayın etkinleştirildiğinde, çıkış rayları artımlı doğrulamaya geçer:
- Parça Parça İşleme
- LLM yanıtı parçalar halinde bölünür (config.yml dosyasında `chunk_size` ile yapılandırılabilir).
- Her bir parça, hafif kurallara (örneğin, kişisel verileri kontrol etme, güvenlik kontrolleri vb.) karşı doğrulanır. Bunun yanı sıra, çoklu parçalar arasında yayılabilen prompt enjeksiyon girişimlerini engellemek için bağlama duyarlı moderasyon içerir.
- Bağlama Duyarlı Moderasyon Kullanarak Tampon Oluşturma
- Doğrulama, yanıtı yeterli bağlamla değerlendirmek amacıyla yakın zamanlı tokenların kaydırmalı bir pencere tamponu (context_size ile yapılandırılabilir) kullanarak gerçekleştirilir (varsayılan 50 token). Guardrails servisi, yalnızca tampon belirtilen parça boyutuna ulaştığında içeriği analiz etmeye başlar.
- Engellenen İçeriği Tespit Etme
- Guardrails servisi, LLM’den yayılan token parçalarını kontrol eder. Eğer bir token parçası güvenli değilse ve çıkış rayları tarafından engelleniyorsa, guardrails servisi bir JSON formatında yanıt döner.
NeMo Guardrails ile Üretken AI Çıktılarınızı Hızlandırın
Şimdi, guardrails yapılandırması ile NVIDIA AI Blueprint for RAG’da üretken AI (GenAI) tepkime süresini nasıl artırabileceğimize bakalım.
Yayın Uygulaması: Yapılandırma ve Kod
Guardrails yapılandırma uygulamasının detaylarına bakalım:
- Yayın Modunu Etkinleştirme
- Yayınla uyumlu bir LLM seçin (örneğin, HuggingFace, OpenAI, NIM için LLM’ler)
streaming: True
ifadesini guardrails yapılandırmasınınconfig.yml
dosyasına ekleyin:
models:
- type: "content_safety"
engine: nim
model: nvidia/llama-3.1-nemoguard-8b-content-safety
- type: "topic_control"
engine: nim
model: nvidia/llama-3.1-nemoguard-8b-topic-control
rails:
input:
flows:
- content safety check input $model=content_safety
- topic safety check input $model=topic_control
output:
flows:
- content safety check output $model=content_safety
streaming:
enabled: True
stream_first: True
chunk_size: 200
context_size: 50
streaming: True
Bu yapılandırmayı daha basit adımlara bölelim:
- Model Yapılandırması
- Güvenlik modelleri: kullanım için NVIDIA llama-3.1-nemoguard-8b-content-safety ve llama-3.1-nemoguard-8b-topic-control NIM mikro hizmetlerini kullanarak giriş/çıkışları zararlı içerik açısından analiz eder ve konu takibi sağlar.
models:
- type: "content_safety"
engine: nim
model: nvidia/llama-3.1-nemoguard-8b-content-safety
- type: "topic_control"
engine: nim
model: nvidia/llama-3.1-nemoguard-8b-topic-control
- Giriş Rayları
- Kullanıcı girişini güvenlik NIM ile doğrulayarak herhangi bir güvenlik veya konu kuralını ihlal eden girişleri reddeder.
rails:
input:
flows:
- content safety check input $model=content_safety
- topic safety check input $model=topic_control
- Çıkış Rayları
- LLM yanıtlarını
nemoguard-8b-content-safety
NIM kullanarak süzerek zararlı çıktıları engeller ve uyumu sağlar. - Yayın Yapılandırması:
enabled: True
yanıt akışını etkinleştirir;stream_first: True
ilk tokenlerin LLM’den guardrails servisine gönderildikten hemen sonra gönderilmesini sağlar.
- LLM yanıtlarını
rails:
output:
flows:
- content safety check output $model=content_safety
streaming:
enabled: True
stream_first: True # Tokenleri hemen gönder
chunk_size: 200 # Gecikme/bağlam ihtiyaçlarına göre ayarlayın
context_size: 50 # Parçalar arasında bağlamı koruyun
stream_first: True
ile, LLM’den gelen tokenler oluşturulduğu anda kullanıcıya çevrimiçi olarak gönderilmektedir. Guardrails, tampon chunk_size
değerine ulaştığında uygulanmaktadır. Eğer bir kural ihlal edilirse ve yanıt bu kurala aykırıysa, JSON hata nesnesi oluşturulmaktadır. Ancak, sorunlu metin zaten kullanıcıya iletilebilir. Bu durumu yönetmek for uygulamanın sorumluğundadır.
Üretken AI için Ana Yayın Avantajları
NeMo Guardrails ile yayını devre dışı bırakmak, basitliği öncelikli hale getirirken, yayın ortamını etkinleştirmek LLM performansını ve kullanıcı deneyimini artırır:
- Algılanan Gecikmeyi Azaltma
Yayın, tokenleri kısım kısım göndererek, kullanıcıların yanıtın kısmı oluşurken görmekte olduğu yanıtlar oluşturur. Bu, tam tamamlanmayı beklemenin yarattığı “sessizlik” etkisini ortadan kaldırır. NeMo Guardrails ile parça parça doğrulama, güvenli olmalarını sağlarken yarı yanıtların iletilmesini garanti eder.
- Verimliliği Optimize Etme
Gerçek zamanlı uygulamalarda, etkileşim anahtardır. İlk tokenlerin yayını, kullanıcıların yanıtı tam olarak üretilmeden okumaya veya işlemeye başlamasına olanak tanır. İçerik güvenliği NIM ile sonraki parçaların üzerinden yapılan kapsamlı güvenlik kontrolleri, duyarlılığı arttırmadan güvenliği sağlar.
- Kaynakları Etkili Kullanma
Yayın, istemci uygulamalarında progresif renderleme imkanı sunar. Tam yanıtı tamponlama işlemi, bellek yükünü azaltırken, NeMo Guardrails gerçek zamanlı güvenlik NIM ile etkili bir şekilde akış içinde çalışır.
Yayın etkinleştirildiğinde, Gen AI uygulamaları bir monolitik yanıt modelinden (tam çıktının tek parça halinde üretilip teslim edilmesi) dinamik, artımlıbir etkileşim akışına dönüşür. Bu durum sistem davranışını ve kullanıcı deneyimini etkilemektedir:
Özellik | Yayın Devre Dışı (False) | Yayın Etkin (True) |
İlk Token Süresi* | Yüksek | Düşük |
Hafıza Kullanımı | İstemci tarafı tamponlama | Progresif renderleme |
Hata Yönetimi | Yanıt sonu doğrulama | Parça başına doğrulama |
Güvenlik Riski | Sorunların geç tespiti | Güvensiz parçaların erken tespiti |
*Performans metrikleri ile yayın etkin olduğunda TTFT’nin nasıl iyileştirildiği
Gecikmeye duyarlı kurumsal Gen AI uygulamaları (örneğin, müşteri destek ajanları) için, yayını etkinleştirmek önerilmektedir. NeMo Guardrails, kurumsal ajanların gerçek zamanlı olarak güvenli, uyumlu yanıtlar sunmasını destekler.
Örneğin, finansal kuruluşlar NVIDIA RAG 2.0 planını NeMo Guardrails yayın modu ile birleştirerek performansı artırabilir. Bu, gerçek zamanlı işlem verilerine erişim sağlamakta ve yetkisiz tavsiyeleri veya hesap bilgilerini engellemektedir. Ayrıca, yanıtlar kısım kısım iletilerek hızı ve kullanıcı deneyimini yukarı çıkarır.
Sonuç
NeMo Guardrails’te yayın, çıktıları artımlı olarak sunarak cevapların hızını artırır ve kullanıcı katılımını artırır. Ancak, gerçek zamanda token yayını, tam doğrulama olmadan güvensiz içeriğin ortaya çıkma riskini taşır.
Bu sebepten, geliştiricilerin hız ile güvenlik arasında denge sağlaması gerekmektedir. Hafif güvenlik duvarları (örneğin, NeMo Guardrails ile NVIDIA NIM mikro hizmetleri) kullanarak kısımlara göre moderasyon sağlamak önemlidir. Yayın, kaynak verimliliğini artırarak bellek yükünü en aza indirirken, etkileşim akışını sürdürür. NeMo Guardrails, çıkış rayı doğrulaması ile daha güvenli bir akış sağlamaktadır. Üretim aşamasında, yayını asenkron kontroller ile birleştirerek gecikmeye duyarlı kurumsal Gen AI uygulamalarında uyum sağlanabilir.