SON DAKİKA

Sürüm Notları# 3 saat önce
Nvdia

“NVIDIA NeMo Guardrails ile LLM Halüsinasyonlarını Önlemek için Cleanlab Güvenilir Dil Modeli”

Birçok şirket, uygulamalarına Büyük Dil Modelleri (LLM’ler) entegre etmeye çalışırken kritik bir zorlukla karşı karşıya kalıyor: LLM’ler, plausibl fakat yanlış yanıtlar üretebiliyor, buna da “hayal ürünü” deniyor. AI koruma mekanizmaları — AI modelleri ve uygulamalarında güvenilirliği sağlamak için uygulanan önlemler — bu sorunla başa çıkmak için popüler bir teknik haline geldi.

Bu yazı, Cleanlab Güvenilir Dil Modeli (TLM) ve NVIDIA NeMo Guardrails kullanarak daha güvenli, hayal ürünü yanıtlar üretmeyen AI uygulamaları nasıl oluşturabileceğinizi göstermektedir.

NVIDIA NeMo Guardrails Genel Bakış

NVIDIA NeMo Guardrails, AI ajanları ve diğer üretken AI uygulamalarında uygulamaları tanımlamak, düzenlemek ve korumak için ölçeklenebilir bir platformdur. İçerik güvenliği, jailbreak tespiti, sohbet konu kontrolü gibi birçok özelleştirilebilir ve genişletilebilir önlemler sunar. NeMo Guardrails, NeMo Guardrails NIM mikro hizmetleri, üçüncü taraf ve açık topluluk guardrails’leri entegre etmek için birleşik bir çerçeve sağlar.

Örneğin, NeMo Guardrails, LLM kendi kendine kontrolü sayesinde hem giriş hem de çıkış metni için güvenlik kontrolleri sağlar; ayrıca NVIDIA’nın Llama 3.1 NemoGuard İçerik Güvenliği NIM ve Meta’nın Llama Guard’ı gibi üçüncü taraf sistemlerle de entegre olur. Bu kontroller, tanımlanan politikalarla karşılaştırarak tüm metni denetler ve anında ihlalleri işaretler. NeMo Guardrails, ActiveFence ActiveScore gibi üçüncü taraf koruma sistemleriyle de entegre olarak, geliştiricilere değişik kontrollerin bir araya getirilebileceği kapsamlı ve esnek bir güvenlik aracı seti sunar.

Cleanlab Güvenilir Dil Modeli Genel Bakış

NeMo Guardrails çerçevesi, güvenilirlik skorlama üzerinde yerel destek sunarak Cleanlab Güvenilir Dil Modeli (TLM) ile koruma sağlar. TLM, modern belirsizlik tahmin teknikleri ile herhangi bir LLM yanıtının güvenilirliğini değerlendirir. Daha fazla bilgi için Hayal Ürünlerini Aşmak: Güvenilir Dil Modeli ile makalesini okuyabilirsiniz.

TLM, gerçek zamanlı LLM çıktılarının doğruluğunu otomatik olarak doğrulama işlemi gerçekleştirir ve bu, birçok işletme kullanım senaryosunda uygulanabilir:

  • Müşteri destek sistemleri, yapay zeka ve insan ajanları arasında yanıtları akıllıca yükseltir
  • Otomatik olarak güvenilir olmayan yanıtları işaretleyen alım artırmaya yardımcı olma (RAG) ile desteklenen AI asistanları
  • Bilgi sınıflandırma veya yönlendirme gibi görevleri daha güvenilir bir şekilde gerçekleştiren otomatik LLM sistemleri

Güvenilirlik Koruma Mekanizmasının NeMo Guardrails ile Entegrasyonu

Bu bölüm, müşteri destek AI asistanı ile güvenilirlik koruma mekanizmasının nasıl entegre edileceğini açıklamaktadır ve çeşitli gerçek dünya senaryoları sunmaktadır.

Uygulama: Müşteri Destek AI Asistanı

NeMo Guardrails ile bu koruma mekanizmasının entegre edilebileceğini göstermek için, bir e-ticaret şirketi için müşteri destek AI asistanı geliştirdik. Bu asistan, müşteri taleplerine yükleme, ürün iade ve geri ödemeler konularında yardımcı olmak üzere şirketin politika belgelerini kullanarak tasarlandı.

Aşağıda, AI asistanının bağlamı olarak kullanılan politika belgesinden bir alıntı yer almaktadır. Kırmızı ile vurgulanan ifadeler, ardından sunulan senaryolar içerisinde belirtildiği politikaya atıfta bulunan özel kısımlarını temsil etmektedir.

# ACME Inc. Müşteri Hizmetleri Politikası

    ## İçindekiler
    1. Ücretsiz Kargo Politikası
    2. Ücretsiz İade Politikası
    3. Dolandırıcılık Tespit Yönergeleri
    4. Müşteri İletişim Tarzı

    ## 1. Ücretsiz Kargo Politikası

    ### 1.1 Uygunluk Kriterleri
    - Ücretsiz kargo, ABD anakarasında $50 üzerindeki tüm siparişler için geçerlidir.
    - $50 altındaki siparişlerde $5.99 sabit kargo ücreti uygulanacaktır.
    - Ücretsiz kargo, hızlı kargo yöntemleri (ör. ertesi gün veya 2 günlük kargo) için geçerli değildir.

    ### 1.2 İstisnalar
    - Ücretsiz kargo, Alaska, Hawaii veya uluslararası destinasyonlara gönderilen siparişler için geçerli değildir.
    - Aşırı büyüklükteki veya ağır eşyalar ek kargo ücretleri doğurabilir; bu, satın alma öncesi müşteriye açıkça duyurulacaktır.

    ### 1.3 Müşteri İletişim Taleplerinin Yönetimi
    - Eğer bir müşteri ücretsiz kargo uygunluğu hakkında bir soru sorarsa, sipariş toplamını ve gönderim yerini doğrulayın.
    - Müşterilere ücretsiz kargo için nasıl uygun hale gelebileceklerini bilgilendirin (örneğin, $50 eşiğine ulaşmak için ürün ekleyerek).
    - Eşik altındaki siparişlerde, müşteri ilk alışverişini yapıyorsa veya büyük sipariş geçmişi varsa bir kerelik jest olarak ücretsiz kargo sunabilirsiniz.

    ## 2. Ücretsiz İade Politikası

    ### 2.1 Uygunluk Kriterleri
    - Ücretsiz iade, teslimat tarihinden itibaren 30 gün içinde tüm ürünler için geçerlidir.
    - Ürünler kullanılmamış, giyilmemiş ve tüm etiketleri ile orijinal ambalajında olmalıdır.
    - Ücretsiz iade, ABD anakarasında standart kargo yöntemleri ile sınırlıdır.

    ### 2.2 İstisnalar
    - Ürün sayfasında belirtilen nihai satış ürünleri, ücretsiz iade için uygun değildir.
    - Özelleştirilmiş veya kişisel ürünler, üretim hatası olmadığı sürece ücretsiz iade için uygun değildir.
    - Hijyen nedenleriyle iç giyim, mayo ve küpe iade alınmamaktadır.

    ### 2.3 İade Süreci
    1. Sipariş tarihini doğrulayın ve bunun 30 günlük iade penceresine girdiğinden emin olun.
    2. Müşteriye iade nedenini sorun ve sistemi kaydedin.
    3. Eğer ücretsiz iade için uygunlarsa, müşteriye önceden ödenmiş bir iade etiketi sağlayın.
    4. İadenin beklenen geri ödeme işleme süresini (iade alındıktan sonra 5-7 iş günü) müşteriye bildirin.

    ### 2.4 İstisnalar
    - Gönderim sırasında zarar görmüş veya üretim hatası bulunan ürünler, bir iade gerektirmeden derhal değiştirilir veya geri ödenir.
    - 30 günlük pencere dışında yapılan iadeler için müşteri geçmişine ve nedenine bağlı olarak takdir yetkisini kullanın; bu da, bir uzlaşma olarak mağaza kredisi sunmanıza neden olabilir.

    ## 3. Dolandırıcılık Tespit Yönergeleri
    ...

Örneğin, bir e-ticaret şirketinin müşterisi bir çift spor ayakkabıyı iade etmek istiyor ve şirketin iade politikasını soruyor. AI asistanı, iade politikasını tarayıp “Ayakkabılarınızı 30 gün içinde iade edebilirsiniz, ve incelemeleri gerçekleştirdikten sonra geri ödemenizi işleme alacağız.” yanıtını veriyor.

Bu yanıt, mantıklı görünse de, eğer iade politikası giyilen ayakkabıların kabul edilmediğini belirtiyorsa? Uygun koruma mekanizmaları olmadan, ince ayrıntılardaki yanlış anlamalar ve eksiklikler hızlıca müşteri memnuniyetsizliğine neden olabilir.

Model yanıtlarının güvenilirliğini sağlamak için tasarlanmış koruma önlemleri bu riski azaltır. AI asistanı bir yanıt ürettiğinde, bu yanıt politika ile ve kullanıcının sorgusuyla uyumlu olup olmadığını kontrol etmek için TLM ile değerlendirilir.

Eğer TLM uyumsuzluk veya yanıtın başka bir şekilde güvenilir olmadığını tespit ederse, bu hatalı yanıtı vermek yerine, “Üzgünüm, bu talepte yardımcı olamıyorum” gibi bir geri dönüş yapar.

Koruma mekanizması tetiklendiğinde, sistemin varsayılan olarak bu tür bir yanıt vermesi yerine bir insan destek temsilcisine yönlendirilmesi de mümkündür.

Gerçek Dünya Senaryolarında Değerlendirme

Bu bölüm, güvenilirlik koruma mekanizmasının yaygın müşteri destek senaryolarını nasıl yönettiğini incelemektedir. Aşağıda yer alan her senaryo, LLM yanıtları ile politika kılavuzları arasındaki çeşitli uyum düzeylerini gösterir.

Screenshot of the customer support AI assistant handling three unique support scenarios.
Şekil 1. Müşteri destek AI asistanının üç çeşitli destek senaryosunu yönetmesi

Senaryo 1: Geri Ödeme Politikası Sorgusu

Geri ödeme politikaları, müşteri desteği için kritik öneme sahiptir ve asistanın doğru bilgi ile cevap vermesi gerekmektedir.

Kullanıcı sorgusu: Ürünü memnun kalmadığım için geri alabilir miyim, defectif değilse bile?

LLM yanıtı: Kullanılmamış ve giyilmemiş bir ürün iseniz geri ödeme için uygun olabilirsiniz. Eğer ürün nihai satış ise, geri ödeme uygun olmayabilir.

Güvenilirlik Skoru: 0.92 – Yanıt, politika belgesine sıkı bir şekilde uyum sağladığı için yüksek bir güvenilirlik puanı almıştır.

Koruma mekanizması sonucu: Geçer – Asistan onaylanmış LLM yanıtını kullanıcıya iletebilir.

Bu senaryo, asistanın politikalara doğrudan karşılık gelen soruları ele alırken nasıl davrandığını göstermektedir.

Senaryo 2: Ürün İade Sorgusu

Ürün iade politikaları, ürün kategorilerine göre değişiklik gösterir; mücevher, elektronik eşya veya bozulabilir ürünler gibi, belirli kurallar söz konusudur. Asistanın doğru politikayı ayırt etmesi ve yanıltıcı bir yorum yapmaması gerekmektedir.

Kullanıcı sorgusu: Burun halkalarımı iade edebilir miyim, bana uymazsa?

LLM yanıtı: Ücretsiz iadeler politikası gereği, iç giyim ve mücevher dahil burun halkaları iadeye uygun değildir, özür dilerim.

Güvenilirlik Skoru: 0.58 – Koruma mekanizmasının düşük güvenilirlik puanı, politikada burun halkalarının değil, yalnızca küpelerin geçerli olduğunu belirttiğini gösteriyor. LLM’nin boşlukları doldurma çabası güvenilirlik kontrolünü tetikliyor.

Koruma mekanizması sonucu: Başarısız – Asistan kullanıcıya geri bildirimde bulunamıyor.

Burada, koruma mekanizması insan müdahalesi gerektiren bir durumu doğru bir şekilde tanımlayarak potansiyel yanlış bilgi iletiminin önüne geçmektedir.

Senaryo 3: Genel Bilgi Talebi

Müşteri destek iletişim bilgileri, müşterilerin daha hızlı iletişim veya çözüm talep ettiğinde sık karşılaşılan bir taleptir. Eğer böyle bir bilgi politikada yoksa, asistan doğru olmayan iletişim bilgileri üretmemeli; bunun yerine, müşteri yönlendirilmelidir.

Kullanıcı sorgusu: Müşteri hizmetlerine telefon numarası ile ulaşabilir miyim, bu sohbet yerine?

LLM yanıtı: Bilgi sağlayamam, ancak sorularınızla yardımcı olabilirim.

Güvenilirlik Skoru: 0.45 – LLM mantıklı bir yanıt üretmiş olsa da, yeterli bilgi veremediğinden dolayı düşük bir güvenilirlik puanı alıyor. Koruma mekanizması, bu yanıttaki eksikliği ve belirsizliği göz önüne alarak bir işlem yapmaktadır.

Sonuç: Koruma mekanizması başarısız – Asistan, kullanıcıya yardımcı olamıyor.

Son senaryoda, koruma mekanizması, yalnızca yanlış bilgi tespit etmenin ötesine geçerek, LLM’nin yanıtının politikadaki içeriğe dayalı olup olmadığını doğrulamaktadır.

Uygulama

Bu AI uygulamasının temel bileşeni, NeMo Guardrails’de bir güvenilirlik puanı almak için Colang tanımıdır:

flow cleanlab trustworthiness
  $result = await CallCleanlabApiAction
  if $result.trustworthiness_score < 0.7
      bot response untrustworthy
      abort

flow bot respond untrustworthy
    bot say "Üzgünüm, bu talepte yardımcı olamıyorum. Size yardımcı olabilecek başka bir temsilciyle sizi yönlendireceğim..."

Bu yapılandırma şu işlemleri gerçekleştirir:

  1. Cleanlab’ın TLM API’sini çağırarak güvenilirlik puanı alır.
  2. Puan, eğer belirlenen eşik değerinin altında ise yanıtı kullanıcıya göndermek yerine bir insan ajanına yönlendirir.

Unutmayın ki, güvensiz yanıtlar için tetiklenen işlem, uygulama gereksinimlerine göre özelleştirilebilir; basit geri bildirim mesajlarından karmaşık temsilci tetiklerine kadar farklılık gösterebilir.

Sonuç

NVIDIA NeMo Guardrails, müşteri destek asistanları gibi LLM uygulamaları için güçlü kontroller sunar. Cleanlab Güvenilir Dil Modeli ile geliştiriciler, LLM temel alınan uygulamaları oluştururken hayal ürünü ve güvenilmez yanıtlar ile başa çıkmak için ek korumalar ekleyebilirler.

Cleanlab, teknik inovasyonu ve iş büyümesini tüm aşamalarda hızlandırmak için tasarlanmış NVIDIA Girişim Programı üyelerindendir.

Daha fazla bilgi edinmek için aşağıdaki kaynakları inceleyebilirsiniz:

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri