SON DAKİKA

Nvdia

“Video Arama ve Özetleme ile Etkili Bir Ajans Videoları İş Akışı Oluşturma”

Büyük dil modelleri (LLM’ler) ile bir soru-cevap sohbet botu oluşturmak günümüzde metin tabanlı etkileşimler için yaygın bir yöntem haline geldi. Ancak, video ve görüntü içerikleri hakkında soruları yanıtlayabilen bir Yapay Zeka sistemi yaratmak, çok daha karmaşık bir görevdir.

Geleneksel video analiz araçları, önceden tanımlanmış nesnelere odaklanmakta olduklarından, zengin bağlam anlayışından yoksundur. Bu da video akışlarından genel amaçlı sistemler oluşturmayı zorlaştırıyor. Geliştiriciler aşağıdaki temel zorluklarla karşı karşıya kalıyorlar:

  • Sınırlı anlayış: Bilgisayarla görme modelleri, yalnızca önceden tanımlanmış nesneler dışındaki bağlamsal bilgileri anlamakta zorluk çekiyor.
  • Bağlamı koruma: Video içerikleri üzerinde sistemi bağlamını korumak ve güncel tutulmak zor.
  • Entegrasyon karmaşıklığı: Kesintisiz bir kullanıcı deneyimi sağlamak için birden fazla yapay zeka teknolojisinin entegre edilmesi gerekiyor.

Bu yazıda, yukarıdaki zorluklarla başa çıkabilmek için NVIDIA AI Blueprint for video search and summarization kullanarak bir çözüm sunacağız. Bu yaklaşım, video akışları üzerinde çok aşamalı akıl yürütme yapabilen görsel AI ajanları geliştirilmesine imkân tanıyor.

NVIDIA Morpheus SDKsını, NVIDIA Riva sınıfı otomatik konuşma tanıma (ASR) ve metinden sese (TTS) ile birlikte kullanarak, sesli yanıtlar alarak eller serbest bir deneyim sunan güçlü bir RAG iş akışı oluşturuyoruz.

Geleneksel Video Analizi Zorluklarının Üstesinden Gelmek

Geleneksel yöntemler, belirli özellikler veya nesneleri yalnızca tanıma yeteneğine sahip olan önceden eğitilmiş bilgisayar görme modellerine dayanır. Ancak Görüntü-Dil Modelleri (VLM’ler) genel ve uyarlanabilir sahne anlayışı sağlar.

Ön Tanımlı Nesnelerle Sınırlı Anlayış

Geleneksel modeller, genellikle yalnızca önceden tanımlanmış nesnelere veya olaylara odaklandığından, gerçek dünya ortamlarındaki çeşitli ve gelişen girişimleri ele almakta zorluk çekerler. VLM’ler, büyük ölçekli ve çeşitli veri setleri kullanarak çok sayıda nesne, ilişki ve senaryoyu anlamaya olanak tanır. Bu, onları real hayatta kullanışlı hale getirir.

Bağlamı Zamanla Koruma

Videolar genellikle uzun bir olay dizisi içerir ve soruları yanıtlamak için sistemin ilgili bağlamı korumasını sağlamak büyük bir zorluktur. VLM’ler, çok modlu kapasiteleri ile zaman verilerini analizlerine dahil ederler. Bu özellik, AI Blueprint ile uzun süreli videolar için bağlamı anlayabilmelerini sağlar.

Kullanıcı Deneyimi için Birçok Servisi Birleştirmek

Bir sistem oluşturmak, yalnızca videoyu anlamakla kalmayıp kullanıcılarla etkileşimde bulunmak için birden fazla teknolojiyi entegre etmeyi gerektiriyor. REST API’ler kullanarak tüm hizmetleri derleyip bir bütün oluşturarak, kullanıcı deneyimini pürüzsüz ve güçlü hale getirebilirsiniz.

Görsel AI Ajanı İş Akışı Genel Görünümü

Bu iş akışında, bir video için soru-cevap aracı olarak çalışan görsel AI ajanı oluşturuyorsunuz. Araç, video akışları üzerinden karmaşık çok aşamalı akıl yürütme yaparak, sesli yanıtlar alarak kullanıcılara el serbest bir arayüz sağlıyor. Bu iş akışını kurmak için /via_workflows/video_agentic_rag_with_morpheus_riva Jupyter not defterini kullanabilirsiniz.

Bu yapı taşlarının geniş bağlam anlayışını sergileyerek, gündelik aktivitelere dair birinci kişi bakış açısına sahip video akışlarını canlı olarak sunabileceğiz.

AI Blueprint ile Akıl Yürütme ve Sesli Yanıtlar

Bu tür bir iş akışı oluşturmak için aşağıdaki bileşenlere ihtiyacınız var:

  • Video arama ve özetleme için AI Blueprint
  • Yeni NVIDIA Morpheus SDK
  • Riva NIM ASR ve TTS mikro hizmetleri
  • Son yanıtı üretmek için bir LLM NIM mikro hizmeti

Bu iş akışı, aşağıdaki adımları takip ederek gerçekleştirilir:

  1. Video İşleme: Saklanan veya akıştaki video, AI Blueprint kullanılarak işlenir ve olayların doğal dilde özetleri oluşturulur. Ayrıca, daha sonra REST API’leri üzerinden sorgulanabilir bir bilgi grafiği oluşturur.
  2. Konuşmadan Metne Dönüşüm: Kullanıcı sesli sorguları, Riva’nın Parakeet modeli ile metne dönüştürülür.
  3. Akıl Yürütme Pipelinesi: Akıl yürütme pipeline’i, kullanıcı sorgusuna bağlı olarak gerçekleştirilecek eylemler oluşturur.
  4. Bağlam Elde Etme: İlgili bilgi üç paralel akıştan elde edilir:
  • Bilgi grafiği ve özetlerden cevaplar almak için blueprint sorgulama.
  • Blueprint’i kullanarak videodan özel bilgiler almak için yeni sorgular gönderme.
  • İnternet araması yaparak video içgörülerini tamamlayacak ek bilgiler elde etme.
  • Son Yanıt Oluşturma: Bir LLM NIM mikro hizmeti tarafından toplanan veriler ile özetlenmiş bir yanıt oluşturulur.
  • Metinden Sese Dönüşüm:Riva metinden ses model tarafından yanıtın sesli versiyonu üretilir.
  • AI Blueprint ile Video Anlayışı

    Geleneksel video analiz uygulamaları, yalnızca belirli nesneleri veya özellikleri algılamak için tasarlanmış sınırlı modeller kullanır. Ancak üretici AI ve görsel temel modeller ile daha az sayıda ama güçlü uygulamalar geliştirmek mümkündür. AI Blueprint for video search and summarization, görsel AI ajanlarının geliştirilmesini hızlandırmak için bulut tabanlı bir çözüm sunar ve REST API’leri ile diğer teknolojilerle entegrasyona olanak tanır.

    AI Blueprint şu anda kendi altyapınızda kullanmanız için tüm erişim için hazır. Daha fazla bilgi için, AI Blueprint üzerinde daha ayrıntılı bilgilere ulaşabilirsiniz.

    Morpheus Kullanarak Akıl Yürütme Pipelinesi

    Bu tür bir yapı kurmak, sorguları nasıl yorumlayacağını – mantıksal süreçlerin nasıl işleyeceği açısından önemli bir unsur haline gelir. Morpheus SDK, etkili akıl yürütme için optimize edilmiş bir akıl yürütme motoru sunar.

    Bu yapı içerisinde, ilk olarak kullanıcı sorgusunun ilgili öğelerini toplayan bir kontrol listesi oluşturulur. Morpheus, birçok yapay zeka modelini kolayca entegre etmenize olanak tanır, bu da projemizi daha güçlü hale getirir.

    Örnek Kullanım Durumu

    Diyelim ki bir kullanıcı, önemli bir toplantıya gitmeden önce, mutfağına geçti ve ocağı kapattığını hatırladı. Ancak arabada giderken, “Gerçekten ocağı kapattım mı?” diye endişelenmeye başladı. Kullanıcı, video anlayan ajana, “Evden çıkmadan önce ocağı kapattım mı?” diye soruyor.

    Bu senaryoda, iş akışı gerekli bilgileri toplamak ve bir yanıt vermek için aşağıdaki kontrol listesini kullanır. Her kontrol listesi maddesi, kendi LLM çağrısı olarak asenkron bir şekilde yürütülerek, daha hızlı tepki alınmasını sağlar.

    • Ocak durumunu doğrula: Ocağın son durumunu kontrol etmek için blueprint’e sorgu gönderir. Eğer ocak görünmüyorsa, geçmiş görüntülerden kontrol eder.
    • Tarihsel video kontrolü: Kullanıcının gerçekten ocağı kapatıp kapatmadığını doğrulamak için geçmiş kayıtları kontrol eder.
    • Görünmüyorsa, başka alanları kontrol et: Kullanıcının mutfaktan çıkmadan önce gittiği diğer alanları kontrol eder.
    • Mutfağı incele: Ocak etrafında herhangi bir pişirme işareti veya yangın olup olmadığını kontrol eder.

    Toplanan tüm bilgiler toplanarak, LLM bir özet yanıt önerir. Örneğin, “Evet, evden çıkmadan önce ocağı kapatmışsınız.”

    Bu esneklik, kullanıcılara unutulan detaylar hakkında yardımcı olacak güçlü bir asistan sunmaktadır.

    Görsel AI Ajanlarının Potansiyelini Keşfedin

    Görsel AI ajanlarının potansiyelinden yararlanmak için NVIDIA AI Blueprint for video search and summarization ile birlikte kullanabileceğiniz NVIDIA NIM desteği ile güçlü yapılar oluşturabilirsiniz. Bu iş akışını kendiniz denemek için gereken adımları /NVIDIA/metropolis-nim-workflows GitHub reposunda bulabilirsiniz.

    Daha fazla kaynak keşfederek derinlemesine bilgi alabilir ve sürece başlayabilirsiniz:

    • Ön Erişim Programına Başvurun: NVIDIA AI Blueprint for video search and summarization’ı değerlendirin.
    • Metropolis NIM Workflows: Projelerinizi geliştirmenize yardımcı olacak diğer GenAI iş akışlarını keşfedin.
    • Bir Video Arama ve Özetleme Ajanı Oluşturun: NVIDIA AI Blueprint ile güçlü görsel AI ajanları oluşturma yöntemini öğrenin.

    Kaynak

    Nvdia Blog

    Düşüncenizi Paylaşın

    E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

    İlgili Teknoloji Haberleri