Günümüzde organizasyonlar, video, ses ve diğer karmaşık veri kaynaklarından içgörüler elde etmenin yollarını arıyor. Retrieval-augmented generation (RAG), generatif AI sistemlerinin özel işletme verilerini kullanmasına olanak tanır. Ancak video içeriğini bu iş akışlarına dahil etmek, etkili bir şekilde alma, dizinleme ve çeşitli kaynaklar arasında uyum sağlama gibi yeni teknik engelleri beraberinde getirir.
Bu blog yazısında, NVIDIA AI Blueprint kullanarak video analizi ve özetlemesini zenginleştirmek için entegre bir yaklaşım sunulmaktadır. Video Search and Summarization (VSS) ve Retrieval-Augmented Generation (RAG) ile bu iş akışlarını bir araya getirerek, geliştiriciler, video anlama süreçlerinde güvenilir ve bağlam zenginliği ile dolu kurumsal veriler kullanarak derinlemesine içgörüler sağlar.
Bu Yazıda Öğrenecekleriniz
- VSS ve RAG Blueprint’lerini multimodal arama ve özetleme için nasıl entegre edeceksiniz.
 - Video analitiğini bağlamsal kurumsal bilgilerle nasıl zenginleştireceksiniz.
 - Gerçek zamanlı video soru-cevap ve özetleme için ölçeklenebilir, modüler iş akışları nasıl tasarlayacaksınız.
 - Bu çözümleri endüstri çapında gerçek dünya kullanım durumlarına nasıl uygulayacağınızı öğreneceksiniz.
 
Daha önceki VSS Blueprint yazımızın ardından, VSS ile RAG’ı birleştirerek video analizini nasıl geliştirdiğimizin altını çizeceğiz. Bu kombinasyon, kurumsal AI uygulamaları için daha doğru ve bağlama duyarlı içgörüler sunar.
NVIDIA AI Blueprint Nedir?
NVIDIA AI Blueprints, generatif AI boru hatları oluşturmak için özelleştirilebilir referans iş akışlarıdır. Geliştiriciler, NVIDIA AI Blueprints’i kullanarak multimodal RAG boru hatları oluşturabilir. RAG Blueprint, hızlı ve doğru anlamsal arama için kurumsal ölçekle sürekli olarak multimodal belgeleri dizinlemek üzere NVIDIA NeMo Retriever modellerine dayanmaktadır. VSS Blueprint, arama, özetleme, etkileşimli soru-cevap ve uyarı gibi olay tetikleme eylemleri için büyük miktarlarda akış veya arşiv video alımı yapar.
Gerçek Dünyada Kullanım: RAG ve VSS Blueprint ile Sağlık İçgörüleri
Aşağıda, ham VSS Blueprint çıktısının, RAG Blueprint ile bağlam zenginleştirilmiş içgörülerle karşılaştırıldığı bir örnek verilmiştir. Girdi videosunda birinin kahvaltı hazırladığı görülmektedir. Bu kullanım durumu, yapay zekanın bir kişinin kahvaltıda ne yediğini analiz etmesini ve yeme alışkanlıklarının sağlığı üzerindeki etkilerini yorumlamasını gösterir. İlk örnekte, yapay zeka, RAG bilgisi olmadan bir video özetliyor. İkinci örnekte ise RAG verilerini kullanarak daha ayrıntılı ve bilgilendirici bir özet sunuyor. İlk ekran görüntüsü, VSS Blueprint’in varsayılan video olay özetlemesini göstermektedir ve anahtar eylemleri malzeme seçimi, pişirme teknikleri, besin bilgileri, hijyen uygulamaları ve sunum ipuçları gibi kategoriler altında gruplamaktadır. Varsayılan VSS çıktısı, gerçekleri ve tanımlayıcı bilgileri içeriyor, ancak gözlemlenen eylemleri besin değeri veya sağlıklı alışkanlıklarla ilişkilendirmiyor.

Sonraki şekilde, bir sağlıklı diyet hakkında Wiki sayfasından elde edilen bilgilerle zenginleştirilmiş bir özet yer almaktadır. RAG Blueprint ile entegre olduktan sonra, VSS bu beslenme rehberlerine ve en iyi uygulamalara dayanarak bağlam ekliyor. Zenginleştirilmiş özet, yapılan eylemleri tanımlarken tam tahılları seçmenin faydalarını, lifin önemini, süt ürünlerinin besin değerini ve hijyenin gıda güvenliğindeki rolünü vurgulamaktadır.

Bağlamsal bilgileri video anlayışına entegre ederek, zenginleştirilmiş özet, izleyicilerin yemek seçimleri ve sağlıklı alışkanlıklar hakkında bilinçli kararlar vermelerine yardımcı olur. Bu, video içeriğini pratik içgörülere dönüştürerek, beslenme bilgilerinin herkes için erişilebilir ve uygulanabilir olmasını sağlar.
Kurulum Adımları
Bu çözümü dağıtmak için aşağıdaki adımları izleyin.
NOT: Bu örnek, RAG Blueprint’in zaten kurulu ve uzaktan erişilebilir olduğunu varsayıyor.
- RAG Blueprint’i indirin ve dağıtın:RAG Blueprint adresinden indirin ve dağıtın.
 - Video arama ve özetleme deposunu klonlayın:
 
$ git clone https://github.com/NVIDIA-AI-Blueprints/video-search-and-summarization.git
- Kaynağı düzenleyin: src/vss-engine/docker/Dockerfile dosyasını düzenleyerek entegrasyon yamalarını uygulayın:
 
diff --git a/src/vss-engine/docker/Dockerfile b/src/vss-engine/docker/Dockerfile
index 58b25e3..e1df783 100644
--- a/src/vss-engine/docker/Dockerfile
+++ b/src/vss-engine/docker/Dockerfile
@@ -17,7 +17,7 @@ RUN --mount=type=bind,source=binaries/gradio_videotimeline-1.0.2-py3-none-any.wh
     pip install --no-deps /tmp/gradio_videotimeline-1.0.2-py3-none-any.whl
 
-RUN git clone https://github.com/NVIDIA/context-aware-rag.git -b v1.0.0 /tmp/vss-ctx-rag
+RUN git clone https://github.com/NVIDIA/context-aware-rag.git -b dev/vss-external-rag-support-v2 /tmp/vss-ctx-rag
 ARG TARGETARCH
 RUN pip install /tmp/vss-ctx-rag --no-deps && 
     if [ "$TARGETARCH" = "amd64" ]; then 
- Patched VSS Blueprint’i dağıtmak için planlanan adımları izleyin: src/vss-engine/README.md dosyasında belirtilmiştir.
 
Entegrasyonu Test Etme
Aşağıdaki kod parçacığı, VSS pod’unu Kubernetes içinde analiz etmek için kubectl exec sözdizimini gösterir. Bu, bir yemek hazırlama videosunu analiz ederken ilgili beslenme yönergeleriyle zenginleştirir.
import subprocess, textwrap
deployment_id = "vss-vss-deployment-595d5b4ccb-8678v"
vid_id        = "6482b573-3aa6-4231-b981-a3e75806826b"
def run_in_vss(pod, cmd):
    subprocess.run(
        ["kubectl", "exec", pod, "-c", "vss", "--",
         "/bin/bash", "-c", cmd],
        check=True, text=True)
prompt = textwrap.dedent("""
  Summary only the key events.
  <e>Breakfast nutritional guidelines?<e>
""")
cmd = f"""python3 via_client_cli.py summarize 
  --id {vid_id} --model vila-1.5 --enable-chat 
  --chunk-duration 10 
  --caption-summarization-prompt "{prompt}"
"""
run_in_vss(deployment_id, cmd)
<e>…<e> etiketleri arasındaki her şey RAG Blueprint’e gönderilir.
Dönülen bağlam, LLM üretimi öncesinde ayarlanabilir VECTOR_RAG_ENRICHMENT_PROMPT belirteci içine yerleştirilir.
Beslenme örneğinde kullanılan ayarlanabilir zenginleştirme isteği aşağıda verilmiştir.
Burada, yemek hazırlama videosu hakkında oluşturulan özet:  
{original_response}
Burada ek beslenme ve gıda güvenliği bilgileri:  
{external_context}
Lütfen özeti, gözlemlenen eylemleri, belirli malzemelerin değerini, pişirme yöntemlerini veya hijyen uygulamalarını vurgulayarak doğal bir şekilde zenginleştirin. Zenginleştirme, bağlamsal, bilgilendirici ve günlük sağlıklı seçimleri destekleyecek şekilde olmalıdır.
Giriş cümleleri, notlar, açıklamalar veya giriştiğiniz özeni belirtmeyin. Sadece zenginleştirilmiş özeti sağlayın, malzeme seçimi, pişirme teknikleri, besin bilgileri, hijyen uygulamaları ve sunum ipuçları kategorileri altında madde işaretleri olarak listeleyin.
Nasıl Çalışır?
- Alım
- VSS, video akışlarını alır, alt başlık parçaları oluşturur ve görsel meta verileri dizinler.
 - RAG, kılavuzlar, tarihsel olay istatistikleri ve medya rehberleri gibi özel belgeleri bir GPU hızlandırmalı vektör deposuna alır.
 
 - Sorgu Akışı
- Bir kullanıcı, “Bugün sağlıklı mı yiyorum?” diye sorar.
 - VSS, kullanıcının yemeğine ait aday segmentleri sunar.
 - VSS, ayrıca RAG sunucusuna ilgili sağlık kılavuzlarından dizinlenmiş bilgileri almak için sorgu yapar.
 
 - Bilgi Birleştirme
- RAG Blueprint, ilgili kurumsal sağlık bilgilerini getirir ve VSS LLM’ye bağlanarak, bir yanıt oluşturur.
 
 - Yanıt
- Son yanıt, video verilerine dayalı olarak zenginleştirilmiş uygun bilgilerle birlikte kullanıcıya gerçek zamanlı olarak iletilir.
 
 
VSS ve RAG Blueprint Entegrasyonu Mimarisi
Şekil 3, bu sonuçları üreten modüler entegrasyon mimarisini göstermektedir.
- VSS, video akışlarını alır, alt başlık ve meta verileri oluşturur ve video içeriği üzerinden soru-cevap ve özetleme işlemleri destekler.
 - RAG Blueprint, bağımsız bir mikro hizmet olarak dağıtılır; belgeleri, metinler, PDF’ler, tablolar ve politika kılavuzları gibi kurumsal veri kaynaklarından dizinler, arama yapar ve geri getirir.
 - VSS ve RAG Blueprint’ler, tanımlı API’ler üzerinden iletişim kurar. Bir istemde <e> … <e> etiketleri arasındaki metin bulunursa, VSS Blueprint bu alt istemi harici RAG sunucusuna gönderir.
 - RAG Blueprint, alt istemi alır ve ilgili bağlamı geri döner.
 - VSS Blueprint, zenginleştirilmiş bağlamı son özet veya soru-cevap yanıtına birleştirmek için ayarlanabilir zenginleştirme talebini kullanır.
 
Bu modüler, API tabanlı entegrasyon, blueprint’lerin bir arada ya da ayrı olarak kullanılmasına ve kullanıcı talebine göre bağımsız olarak ölçeklenmesine olanak sağlar.

İş Akışlarını Bağlama: Modüler AI Blueprint’lerin İşbirliğini Desteklemesi
Birden fazla NVIDIA AI Blueprint’ini birleştirerek, geliştiriciler, video analitiği ve kurumsal keşif gibi uzmanlaşmış boru hatlarını entegre ederek kesintisiz iş akışları oluşturabilir. Bu modüler yapısı, geliştirmeyi hızlandırırken, herhangi bir tek blueprint’in sunabileceğinden daha geniş işlevsellik sağlar.
Modülaritenin esnek entegrasyon, fonksiyonlar arası işbirliği ve bağlamdan zengin sonuçlar sunduğunu görmekteyiz:
- Esnek Entegrasyon: Özelleştirilmiş blueprint’leri birleştirerek, özel, ölçeklenebilir çözümler geliştirebilirsiniz.
 - Karma Fonksiyonel İşbirliği: Farklı blueprint’ler, video mühendisleri, veri bilimcileri ve konu uzmanları arasında işbirliğini sağlar.
 - Bağlam Duyarlı Sonuçlar: Kullanıcı sorguları, VSS Blueprint’leri üzerinde RAG Blueprint’lerin sağladığı ek bilgilerle zenginleşerek, kesin ve uygulanabilir içgörüler sunar.
 
VSS Blueprint, video akışlarını algılama ve başlıklandırma işlemleri yaparken; RAG Blueprint, metin ve yapılandırılmış veri kaynaklarından ilgili bilgileri alır. VSS Blueprint’e yönlendirdiğiniz kullanıcı sorguları, RAG Blueprint’lere ek bağlam için iletilir ve birleşik yanıt, hem video analitiğini hem de kurumsal bilgiyi içermektedir.
Kurumsal İş Akışları için Optimize Etme: Ayrı RAG Durumunun Gerekliliği
RAG Blueprint’in bağımsız, kendi kendine çalışan bir sunucu olarak tutulması, birkaç gerçek dünya faktörü tarafından yönlendirilmiştir:
- Çoklu Çalışma Akışı Desteği: RAG Blueprint, arama portalları, chatbotlar, panolar ve uyum araçları gibi çoklu iş akışlarına hizmet ederek karmaşık bir bilgi katmanı sunar.
 - Ayrılmış Ölçekleme: Blueprint’ler, video ve belge iş yükleri için kaynak tahsisini hedef alarak bağımsız bir şekilde ölçeklenebilir ve optimize edilebilir.
 - Hızlı Yenilik ve Güvenlik: Merkezileştirilmiş RAG yönetimi, güncellemeleri, yamaları ve güvenlik iyileştirmelerini gerçekleştirirken VSS dağıtımlarını etkilemeden yapar.
 - Minimum Entegrasyon Yükü: VSS entegrasyonu, yalnızca RAG sunucu son noktası ve ortam değişkenleri gerektirir; yeni kullanım durumları için video verilerini yeniden inşa etmek veya dizinlemek gerekmez.
 
VSS Blueprint ayrıca RAG yeteneği ile birlikte gelir. Her ne kadar VSS Blueprint, kurumsal belgeleri de alabilse de, boru hattı daha fazla doğrulukla video arama ve alım süreçleri için optimize edilmiştir. Aynı şekilde, RAG Blueprint de üzerinde çalışmakta olduğu çok sayıda modaliteyi destekler. Ancak RAG Blueprint, metin, tablolar ve grafikler içeren çok dilli, çok modalite iş belgelerini aramak ve almak için optimize edilmiştir. API çağrıları üzerinden sağlanan gevşek entegrasyon, geliştiricilere, her iki özel boru hattı arasında bir “en iyi iki dünyayı” deneyimi sunar.
Gecikme Etkisi
Mavi blueprint’leri video özetleme ve soru-cevap işlemleri için birleştirmenin performans etkisini de değerlendirdik. Toplam gecikme, VSS işlemlerinde harcanan zaman, RAG işlemlerinde harcanan zaman ve sonuçların entegrasyonuna harcanan süreyi içermektedir.
Hizmet gecikmesi her kullanım durumu için Tablo 1’de gösterilmiştir.
Chat Q&A kullanım durumunda RAG girişinin toplam gecikmenin %10’unu oluşturduğu belirlenmiştir. RAG verileriyle zenginleştirilmiş video özetlemesi ise toplam gecikmenin yaklaşık %1’ini kapsamaktadır.

| Pipeline Aşaması | VSS Özetleme Gecikmesi (saniye) | VSS Chat Q&A Gecikmesi (saniye) | 
| RAG geri alımı | 1.69 | 1.81 | 
| LLM birleşimi | 1.24 | 1.35 | 
| Uçtan Uca | 250 | 29.77 | 
| VSS Özetleme / Chat Q&A (Ana Görev) | 247.07 | 26.61 | 
Blueprint’lerin Hızlı ve Akıllı Kararlar Alma Üzerindeki Etkisi
İnşaat alanlarından ormanlara, stadyumlara kadar VSS ve RAG Blueprint’lerinin entegrasyonu, ham videoyu değerli, bağlamsal olarak zengin içgörülere dönüştürmekte ve ek bir gecikme oluşturmamaktadır. Aşağıdaki örnekler, bu entegrasyonun gerçek dünya zorluklarına nasıl yanıt verdiğini vurgulamaktadır:
- Shimizu, inşaat alanlarında iş sahası görüntülerini akıtarak, gelişim ilerlemesini izliyor, güvensiz davranışları önleyerek güvenlik ve uyumu artırıyor.
 - Cloudian’in HyperScale AIDP ormancılık yönetimi demosu, VSS ve RAG Blueprint’lerini kullanarak aşırı büyüme ve istilacı türleri tespit ediyor ve bunun yanı sıra ilgili politika belgelerine erişerek sigorta ve uyum için eyleme geçirilebilir raporlar oluşturuyor.
 - Monks, bu çözümü kullanarak kişiselleştirilmiş spor özetleri oluşturuyor ve büyük içerik kütüphanelerini sosyal ve yayın platformları için ilgi çekici kliplere dönüştürüyor.
 

Kompleks, hızlandırılmış boru hatlarınızı geliştirmeye başlamak için https://build.nvidia.com/blueprints adresini ziyaret edin.
            
















