“NVIDIA AI Blueprint ile Maliyet Etkin LLM Yönlendirme Nasıl Yapılır?”

ChatGPT, Kasım 2022’de piyasaya sürüldükten sonra, büyük dil modelleri (LLM’ler) hızla gelişti ve mevcut modellerin sayısı katlanarak arttı. Bu genişleme ile birlikte, LLM’ler artık maliyet, performans ve uzmanlık açısından oldukça farklılık gösteriyor. Örneğin, metin özetleme gibi basit görevler daha küçük, genel amaçlı modellerle etkin bir şekilde yerine getirilebilirken, kod üretimi gibi karmaşık işlemler daha büyük modellere ihtiyaç duyar; bu modeller, gelişmiş akıl yürütme yetenekleri ve test süreli hesaplama ölçekleme sunar.

Yapay zeka geliştiricileri ve MLOps ekipleri için zorlayıcı olan, her bir istem için en uygun modeli seçmektir—doğruluk, performans ve maliyet dengesi sağlamak önemlidir. Tek tip bir yaklaşım verimsizdir ve gereksiz maliyetler veya optimal sonuçların elde edilmemesine yol açar.

Bunu çözmek amacıyla, NVIDIA AI Blueprint for an LLM router, çoklu LLM yönlendirmesi için hızlandırılmış ve maliyet optimizasyonu sağlanan bir çerçeve sunar. Bu çerçeve, NVIDIA araçları ve iş akışlarını sorunsuz bir şekilde entegre ederek, istemleri en uygun LLM’ye dinamik bir şekilde yönlendirir ve kurumsal ölçekli LLM operasyonları için güçlü bir temel sunar.

LLM Yönlendiricisinin Temel Özellikleri

Konfigüre Edilebilir: NVIDIA NIM ve üçüncü parti LLM’ler gibi temel modellerle kolayca entegre edilebilir.
Yüksek Performans: Rust ile inşa edilmiş ve NVIDIA Triton Inference Server ile desteklenerek, doğrudan model sorgularına göre minimum gecikme süresi sağlar.
OpenAI API ile uyumlu: Mevcut OpenAI API tabanlı uygulamalar için doğrudan bir değiştirici olarak çalışır.
Esnek: Varsayılan yönlendirme davranışı içerir ve işletme ihtiyaçlarına göre ince ayar yapma imkanı sunar.

NVIDIA LLM yönlendirici AI Blueprint’i, yönlendiriciyi dağıtma ve yapılandırma talimatlarının yanı sıra, performansı izleme, yönlendirme davranışını özelleştirme ve istemci uygulamalarına entegrasyon araçları sağlar. Bu sayede, işletmeler ölçeklenebilir, maliyet verimli ve yüksek performanslı yapay zeka iş akışları oluşturabilir. Bu yazıda, LLM yönlendiricinin dağıtım ve yönetimi için talimatlar ile çoktur konumları ele almak için LLM yönlendirici kullanma örneği sunacağız.

Architecture diagram showing the main components and process flow of the LLM router. — *Şekil 1. NVIDIA AI Blueprint for an LLM yönlendirici mimarisi*

Gereksinimler

LLM yönlendiricisini dağıtmak için sisteminizin aşağıdaki gereksinimleri karşıladığından emin olun:

İşletim Sistemi: Linux (Ubuntu 22.04 veya daha yenisi)
Donanım: NVIDIA V100 GPU (veya daha yenisi) ile 4 GB bellek
Yazılım:
- CUDA ve NVIDIA Konteyner Araçları
- Docker ve Docker Compose
- Python
API anahtarları (bknz. NVIDIA NIM for LLM’ler Başlarken kılavuzu – Seçenek 1 ve 2):
- NVIDIA NGC API anahtarı
- NVIDIA API katalog anahtarı

LLM Yönlendiricisinde Dağıtım ve Yönetim Adımları

LLM Yönlendiricisini Dağıtma

Gerekli bağımlılıkları yüklemek ve LLM yönlendirici hizmetlerini Docker Compose kullanarak çalıştırmak için mavi baskı defterini takip edin.

Yönlendirme Davranışını Test Etme

Örnek Python kodu veya örnek web uygulaması kullanarak LLM yönlendiriciye bir istek yapın. LLM yönlendirici, isteği bir ters proxy olarak işleyerek aşağıdaki adımları takip eder:

LLM yönlendirici isteği alır ve yükü ayrıştırır.
LLM yönlendirici, ayrıştırılmış yükü bir sınıflandırma modeline iletir.
Model bir sınıflandırma döner.
LLM yönlendirici, sınıflandırmaya dayalı olarak yükü LLM’ye iletir.
LLM yönlendirici, LLM’den gelen yanıtı kullanıcıya geri gönderir.

Tablo 1, görevle sınıflandırılmış ve uygun modellere yönlendirilmiş örnek istemleri sunmaktadır.

Kullanıcı İsteği	Görev Sınıflandırması	Yönlendirildiği Model
“Bir python fonksiyonu yazmama yardım et; bu fonksiyon, salesforce verilerini depoma yükleyecek.”	Kod Üretimi	Llama Nemotron Super 49B
“İade politikası hakkında bana bilgi ver.”	Açık QA	Llama 3 70B
“Bu kullanıcı istemini LLM ajansı için geliştirecek şekilde yeniden yaz. Kullanıcı istemi: En iyi kahve tarifi nedir?”	Yeniden Yazma	Llama 3 8B

Tablo 1. Görevle sınıflandırılmış ve uygun modellere yönlendirilmiş örnek istemler

Kod üretimi görevindeki karmaşıklık daha yüksek olduğundan, doğru bir yanıt elde etmek için akıl yürütme yeteneği olan bir LLM seçilmiştir. Diğer taraftan, “Kullanıcı istemini yeniden yaz” isteği daha az karmaşık olduğundan, daha maliyet etkin olan LLM yeterli olmuştur.

Yönlendiriciyi Özelleştirme

Yönlendirme politikasını ve LLM’leri değiştirmek için mavi baskı kılavuzundaki talimatları izleyin. Varsayılan olarak, mavi baskıda görev sınıflandırması veya karmaşıklık sınıflandırmasına dayalı yönlendirme örnekleri bulunmaktadır. Özelleştirilmiş bir sınıflandırma modelinin ince ayarlarının nasıl yapılacağı, özelleştirme şablon defterlerinde gösterilmektedir.

Performansı İzleme

Bir yük testi çalıştırmak için, mavi baskının yük testi gösterimindeki talimatları izleyin. Yönlendirici, takip edilebilen ölçümleri yakalar ve bu veriler bir Grafana panelinde görüntülenebilir.

Çok Turlu Yönlendirme Örneği

LLM yönlendiricisinin önemli yeteneklerinden biri, her yeni sorguyu en iyi LLM’ye yönlendirerek çok turlu konuşmaları yönetme yeteneğidir. Bu, her isteğin optimal şekilde ele alınmasını sağlarken, farklı görev türleri arasında bağlamı korur. Aşağıda bir örnek verilmiştir.

Kullanıcı İsteği 1:

“Bir çiftçi, bir kurt, bir keçi ve bir lahana ile nehirden geçmelidir. Bot, yalnızca bir öğe taşınabilir. Birlikte bırakıldığında, kurt keçiyi yer ve keçi lahanayı yer. Çiftçi, tüm öğeleri güvenli bir şekilde nasıl taşıyabilir?”

Karmaşıklık Yönlendiricisi → Seçilen Sınıflandırıcı: Akıl Yürütme

Bu ilk istek, klasik bir bulmacanın mantıksal akıl yürütmeyi gerektirdiği için önemlidir.
Cevap, daha ileri keşif için gereken temeli sağlar.

Kullanıcı İsteği 2:

“Bu problemi grafik teorisi kullanarak çöz. Geçerli durumları düğüm olarak tanımla (örneğin, FWGC-sol) ve bot hareketlerini kenar olarak belirt. Çözümü en kısa yol algoritması şeklinde biçimlendir.”

Karmaşıklık Yönlendiricisi → Seçilen Sınıflandırıcı: Alan Bilgisi

Bu istek, önceki problemle aynı konuda olsa da, grafik teorisi uygulaması gerektiriyor.
Konuşma, bir önceki akıl yürütmeden besleniyor ancak yapılandırılmış matematiksel bir çerçeveye kayıyor.
Cevap, çiftçinin hareketlerini bir durum uzayında arama olarak biçimlendirerek önceki cevaba bağlantı kurar.

Kullanıcı İsteği 3:

“Çözümündeki Adım 2’nin, Adım 4’te belirttiğin kurt-lahana çatışmasını nasıl engellediğini analiz et. Bu eylemler arasındaki bağı izlemek için orijinal adım numaralarını kullan.”

Karmaşıklık Yönlendiricisi → Seçilen Sınıflandırıcı: Kısıtlama

Şimdi kullanıcı, çözümün belirli bir kısmına odaklanarak kısıtlama analizine gidiyor.
Bu adım, önceki cevaba doğrudan bağlıdır ve problem çözüm sürecindeki bağımlılıkları netleştirir.
Problem yeniden çözülmekten ziyade, bu yanıt doğruluğu ve mantıksal tutarlılığı doğrular.

Kullanıcı İsteği 4:

“Buna dayanarak, bilim kurgusal bir hikaye yaz.”

Karmaşıklık Yönlendiricisi → Seçilen Sınıflandırıcı: Yaratıcılık

Odak, yapılandırılmış akıl yürütmeden yaratıcı hikaye anlatımına kayıyor.
Ancak ulaştırma ile ilgili uygulanan kısıtlamaların bağlamı korunuyor, böylece önceki mantıksal problemden ilham alınarak bir hikaye oluşturuluyor.
Bu, yapay zekanın analitik ve hayal gücü gerektiren görevler arasında nasıl köprü kurabileceğini gösteriyor.

Kullanıcı İsteği 5:

“Yukarıdakileri kısa ve öz bir şekilde özetle.”

Görev Yönlendiricisi → Seçilen Sınıflandırıcı: Özetleme

Son adım, mantıksal akıl yürütme, matematiksel modelleme, bağımlılık izleme ve hikaye anlatımını içeren tüm tartışmanın anahtar noktalarını çıkarır ve bunları kısa, öz bir özet halinde bir araya getirir ve karmaşıklık yönlendiricisi yerine görev yönlendiricisini kullanır.
Bu, LLM yönlendiricisinin tüm yanıtların bağlamda kalmasını sağlarken görev yürütümünü nasıl optimize ettiğini gösterir.

LLM’ler kullanarak, LLM yönlendiricisi, her konuşma turunu en uygun modelle yönetilmesini sağlar.

Başlangıç Yapın

NVIDIA AI Blueprint for an LLM yönlendiricisinin uygulanması, organizasyonların belirli kullanıcı niyetlerine yanıt verirken yüksek performans ve doğruluk sağlamasını mümkün kılarken, model ölçeklendirmesinde esneklik sunar. Ayrıca, tüm talepleri en yetenekli modele yönlendirme yaklaşımına göre maliyet tasarrufu da sağlanmaktadır.

Genel olarak, LLM yönlendirici dağıtımı, yapay zeka ekiplerine:

Maliyetleri azaltma: Basit görevlerin daha küçük ve verimli modellerle eşleştirilmesi, operasyonel maliyetleri önemli ölçüde azaltır ve hızlı yanıt süreleri sağlar.
Performansı artırma: Daha karmaşık sorgular, en uygun modellere yönlendirilerek en yüksek doğruluk ve verimlilik sağlanır.
Kesintisiz ölçekleme: Açık kaynaklı modeller, kapalı kaynaklı modeller veya her ikisinin karışımına ihtiyaç duyduğunuzda, mavi baskı organizasyonunuzun ihtiyaçlarına göre ölçeklenme ve uyum sağlama esnekliği sunar.

Bu mavi baskıyı hemen NVIDIA Launchables üzerinden deneyimleyin. Tüm kaynak kodunu NVIDIA-AI-Blueprints/llm-router GitHub repo’sunda bulabilirsiniz. Yönlendirici sınıflandırma modelleri hakkında daha fazla bilgi edinmek için NVIDIA NeMo Curator Prompt Görev ve Karmaşıklık Sınıflandırıcısı konusunu okuyabilirsiniz.

Daha fazla yapay zeka ajansı hakkında bilgi almak ister misiniz? NVIDIA GTC 2025 etkinliğindeki Ajans AI oturumlarına göz atın.