SON DAKİKA

Nvdia

“NVIDIA AI Tasarımı ile Video Arama ve Özetleme için Gelişmiş Video Analitiği AI Ajanları”

Videolar için Yapay Zeka İnovasyonu: NVIDIA AI Blueprint

Video analitiği, görsel-dil modelleri (VLM’ler) sayesinde büyük bir dönüşüm yaşadı; bu modeller, geleneksel bilgisayarla görme (CV) modellerine kıyasla daha kapsamlı bir algılama ve gelişmiş bir bağlamsal anlayış sunuyor. Ancak, VLM’lerin işleyebileceği video miktarını sınırlayan kısıtlı bağlam uzunluğu ve ses transkripsiyonu eksikliği gibi zorluklar hala devam ediyor.

Bunları aşmak için, NVIDIA AI Blueprint, video arama ve özetleme (VSS) alanında VLM’leri, büyük dil modelleri (LLM’ler) ve retrieval-augmented generation (RAG) tekniklerini bir araya getiriyor. Bu sayede, hem kaydedilmiş hem de gerçek zamanlı video analizi için etkin bir şekilde veri alımı, alım ve depolama mekanizmaları sağlanıyor. Görsel yapay zeka ajanları, akıllı alanların izlenmesi, depo otomasyonu ve SOP doğrulama gibi pek çok farklı kullanım alanında uygulanabiliyor.

NVIDIA AI Blueprint VSS’nin Yeni Özellikleri

NVIDIA AI Blueprint, VSS için yeni bir sürüm ve genel kullanıma sunulduğunu duyurdu. Bu sürüm, çoklu canlı akış, ani modda alınan veri, özelleştirilebilir CV hattı ve sese transkripsiyon gibi birçok yeni özelliği içeriyor. Bu güncellemeler, uzun biçimli video anlayışı için kapsamlı bir çözüm sağlamak amacıyla video analitiği AI ajanlarının geliştirilmesini daha da hızlandırıyor.

Bu yazı, daha önceki “NVIDIA AI Blueprint ile Video Arama ve Özetleme Ajanı Oluşturma” başlıklı yazıyı takip ediyor ve bu planın temel yeteneklerinin bir özetini sunuyor.

Gelişmiş Video Analitiği için AI Ajanları

VSS, VLM’ler, LLM’ler ve en son RAG tekniklerini kullanarak uzun biçimli video anlayışını hızlandıracak bir yöntem sunuyor. Önceki sürüm (v2.0.0), bir görsel ajan tarafından akışta ve kaydedilmiş videoların alınmasını sağlıyor ve özetlemeler yapıyor, soru-cevap işlevi veriyor ve uyarılar gönderiyor.

Yeni sürüm (v2.3.0) ile birlikte gelen bazı önemli özellikler ise şöyle:

  • Tek GPU üzerindeki dağıtım: Performans gereksinimlerinize bağlı olarak, VSS artık farklı donanım yapılandırmalarında dağıtılabiliyor. Küçük yükler için, NVIDIA A100, H100 ve H200 GPU’ları üzerinde tek GPU dağıtımını destekliyoruz.
  • Çoklu canlı akış ve ani mod: Yüzlerce insanların canlı akışını veya kaydedilmiş video dosyalarını aynı anda işleme imkânı sunar.
  • Ses transkripsiyonu: Sesi metne dönüştürerek sahnenin çok modalite anlayışına katkıda bulunur. Bu, eğitim videoları, anahtar kelimeler veya şirket içi eğitim içerikleri gibi sesin önemli bir bileşen olduğu kullanımlar için faydalıdır.
  • Bilgisayarla görme (CV) hattı: Sıfırdan nesne tespiti ve örnek tespiti ile nesneleri sahnede izleyerek, doğruluğu artırır.
  • Bağlamdan bağımsız RAG (CA-RAG) ve GraphRAG doğruluğu ve performans iyileştirmeleri: Performansı artırmak için toplu özetleme ve varlık çıkarımı, dinamik grafik oluşturma ve CA-RAG’in bağımsız bir süreç içinde, bağımsız bir olay döngüsü ile çalıştırılması gibi iyileştirmeler sağlar.

Tek GPU Dağıtım Süreci

Tek GPU dağıtım yöntemi, düşük bellek modları ve daha küçük LLM’ler kullanılarak tanıtılmıştır. Bu, NVIDIA H100, H200 ve A100 (80 GB+, HBM) makinelerde kullanılabilir ve daha fazla GPU desteği gelecekte sağlanacaktır. Bu yapı, çoklu GPU ortamlarını gerektirmeyen küçük yükler için idealdir; önemli maliyet tasarrufları ve basit bir dağıtım sunar.

Çoklu Canlı Akış ve Ani Mod

Gerçek zamanlı video analizine olan talep arttıkça ve büyük video kliplerini aynı anda işlemenin gerekliliği ortaya çıktıkça, en son özellikler dağıtılan AI ajanlarının çoklu canlı akışları ve ani klipleri yönetmesini sağlamaktadır.

Bu güncelleme ile birlikte, VSS arka ucu, birçok akışın eş zamanlı olarak işlenmesini sağlamak için istekleri sıralama ve planlama işlevini üstleniyor. CA-RAG sayesinde, ayrıca her kaynak için ayrı bağlamların korunmasını sağlar. En çok multi_channel: true ayarı ile tüm akışlar arasında sorgulama yapabileceğiniz gibi, multi_channel: false ayarı ile belirli bir akışa yönelik sorgulama da yapabilirsiniz.

Ayrıca, her veri parçası – VLM tarafından üretilen bir altyazı veya çıkarılmış bir varlık olsun – kendine ait benzersiz bir akış kimliği ile etiketlenir. Bu akış kimliği, tüm ilgili altyazıların, varlıkların ve ilişkilerin kendi akışlarıyla ilişkili kalmasını sağlamak için bir anahtar tanımlayıcı görevi görür.

Ses Transkripsiyonu

NVIDIA, plan dahilinde oluşturulan görsel ajanlara duyma yeteneği kazandırdı ve bu sayede bağlamsal anlayışın artmasını sağladı. Sestranskripsiyonu, video ile yakalanamayan bilgileri gün yüzüne çıkarıyor. Özellikle anahtar kelimeler, dersler, video toplantıları ve bakış açısına göre görüntülerin doğruluğunu artırmış oldu.

VSS’ye ses entegrasyonu sağlamak için, video işleme yöntemlerimizle benzer teknikler uyguladık. Videoyu parçalara ayırarak GPU’lar arasında verimli bir şekilde parçalamak istiyoruz, ses aşağıdaki şekilde işleniyor:

  • Sesi video klipten ayırmak: Videodan ayrı bir ses dosyası oluşturur.
  • Sesi çevir: Her ses parçası 16 kHz mono sese dönüştürülür.
  • Otomatik konuşma tanıma (ASR) ile işleme: Dönüştürülen ses parçası, NVIDIA Riva ASR NIM mikro hizmetine gönderilir, burada sesin transkripti oluşturulur.
  • Ses ve görsel bilgileri birleştirme: Her parça için, VLM’den alınan video açıklaması ve ASR hizmetinden alınan ses transkripti ile beraber ek meta veriler, örneğin zaman damgası gibi, daha fazla işleme ve dizinleme için alım hattına gönderilir.

Sonuç

NVIDIA AI Blueprint ile video analitiği alanında devrim yaparak video anlayışında önemli bir performans artışı sağlamak mümkündür. Daha fazla bilgi edinmek ve Geliştirici hesabınızlablueprint’i indirmek için çeşitli kaynaklara göz atabilirsiniz. Bunun yanı sıra, VSS hakkında ön izleme için VSS blueprint demo veya NVIDIA Launchable üzerinde VSS’yi deneyin.

Yeni içeriği ve gelişmeleri takip etmek için bültenimize abone olmayı ve NVIDIA AI’nın sosyal medya kanallarını LinkedIn, Instagram, X ve Facebook üzerinden takip etmeyi unutmayın.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri