Videoları metin kadar anlayabilen yapay zeka modelleri, yeni ve güçlü uygulamaların kapısını aralıyor. En azından, bu düşünceyi savunan isim Jae Lee, Twelve Labs adlı şirketin kurucu ortaklarından biri.
Elbette, Lee’nin bu konuda bir taraflılık söz konusu. Twelve Labs, bir dizi kullanım durumu için video analizi yapan modeller geliştiriyor. Ancak bu iddiada bir doğruluk payı olabilir.
Twelve Labs’ın modelleri sayesinde kullanıcılar, videoları belirli anlar için arayabiliyor, kesitleri özetleyebiliyor veya “Kırmızı tişörtlü kişi restorana ne zaman girdi?” gibi sorular sorabiliyor. Bu güçlü yetenekler, şirketin Nvidia, Samsung ve Intel gibi büyük yatırımcıların dikkatini çekmesini sağlıyor.
Video Araması
Lee, bir veri bilimcisi olarak, videolarda temel arama sistemlerinin yetersiz olduğunu savunuyor. Anahtar kelime aramaları başlıklar, etiketler ve açıklamalar gibi unsurları bulabiliyor, fakat kliplerin gerçek içeriğine ulaşamıyor.
“Video, en hızlı büyüyen ve en fazla veri yoğunluğuna sahip medya, ancak çoğu kuruluş video arşivlerini incelemek için insan kaynaklarını devretmeyecek. Manuel etiketleme yapsanız bile, belirli bir anı veya açıyi bulmak, bir iğne aramaya benzeyebilir.” diyor Lee, TechCrunch’a verdiği demeçte.
Daha iyi bir çözüm bulamayınca, Lee, Aiden Lee, SJ Kim, Dave Chung ve Soyoung Lee’yi yanına alarak biri oluşturmayı hedefledi. Böylece, Twelve Labs’ın temelini atmış oldular. Şirket, metni videodaki içeriklere – eylemler, nesneler ve arka plan sesleri – eşleştiren modeller geliştiriyor.
Google’ın Gemini’si gibi bazı modeller, görüntüleri tarayabiliyor; Microsoft ve Amazon gibi şirketler de kliplerde nesne tespiti yapıyor. Ancak Lee, Twelve Labs’ın ürünlerinin, müşterilerin kendi verilerini kullanarak modellerini özelleştirme seçeneği ile öne çıktığını belirtiyor.
Önyargı Riski
Geçtiğimiz yıl Lee ile konuştuğumda, Twelve Labs’ın modellerinde önyargı potansiyelini sordum. Bu, büyük bir risk faktörü. 2021’de yapılan bir çalışma, bir video anlayış modeli için yerel haberlerin, genellikle suç konularını önyargılı bir şekilde ele almasına neden olabileceğine dair bulgular sundu.
Lee, o dönemde Twelve Labs’ın model etik ölçütleri ve veri setleri yayınlamayı planladığını söyledi. Şirket hâlâ bunu yapmadı, ancak Lee, bu araçların yolda olduğunu ve Twelve Labs’ın piyasaya sürmeden önce tüm modellerinde önyargı testleri gerçekleştirdiğini güvence altına aldı.
“Henüz resmi önyargı ölçütleri yayınlamadık çünkü bunların anlamlı, uygulanabilir ve pratik olmasını istiyoruz.” dedi. “Genel hedefimiz, yalnızca bizi sorumlu tutacak ölçütler geliştirmek değil, aynı zamanda sektörde bir standart belirlemek.”
Büyüme Modu
Video analizi, Twelve Labs’ın temelini oluştursa da, şirketin esnek kalmak için “her şeyden herhangise” arama ve çok modlu gömüler gibi alanlara da yöneldiği görülüyor.
Şirketin modellerinden biri olan Marengo, videoların yanı sıra görseller ve sesler arasında da arama yapabiliyor. Ayrıca, bir referans ses kaydı, görsel veya video klip kabul ederek aramayı yönlendirebiliyor.
Twelve Labs, videolar, metinler, görseller ve ses dosyaları için çok modlu gömüler oluşturmak üzere Embed API adlı bir API sunuyor. Gömüler, farklı veri noktaları arasındaki anlamı ve ilişkileri yakalayan matematiksel temsillerdir ve anomali tespiti gibi uygulamalar için faydalı olabilir.
Twelve Labs’ın büyüyen ürün yelpazesi, şirketin kurumsal, medya ve eğlence alanlarında müşteriler edinmesine yardımcı oldu. İki önemli ortakları Databricks ve Snowflake, her ikisi de Twelve Labs teknolojisini kendi tekliflerine entegre ediyor.
Databricks, mevcut veri akışlarından Twelve Labs’ın gömü hizmetini çağırmayı sağlayan bir entegrasyon geliştirdi. Öte yandan Snowflake, tam olarak yönetilen AI hizmeti Cortex AI’da Twelve Labs modellerine bağlayıcılar oluşturuyor.
Yeni Atama
Kısaca, Twelve Labs’ın Perşembe günü C-suite kadrosuna bir başkan eklediğini duyurdu: Eski SK Telecom CTO’su ve Apple’ın Siri‘sinin mimarlarından biri olan Yoon Kim. Yoon, aynı zamanda Twelve Labs’ın baş strateji sorumlusu olarak görev alacak ve şirketin saldırgan genişleme planının yönetimini üstlenecek.
Lee, “Twelve Labs’ın yaşına ve aşamasına göre bir başkan atamak alışılmadık bir durum, ancak bu hareket, gösterdiğimiz talebin bir kanıtıdır.” dedi; ayrıca Yoon’un zamanının bir kısmını Twelve Labs’ın San Francisco merkezinde ve Seul ofislerinde geçireceğini belirtti. “Yoon, uygulamayı gerçekleştirmek için doğru kişi olacak — gelecekteki büyümeyi sağlamak, önemli kazanımlarla şirketimizi genişletmek için kritik bir rol oynayacak.”
Gelecek yıllarda otomotiv ve güvenlik gibi yeni ve bitişik alanlara büyümeyi planladıklarını ifade eden Lee, In-Q-Tel’in katılımının güvenlik (ve muhtemelen savunma çalışmaları) konusunda fırsatlar doğurabileceği fikrini dile getirdi.
“In-Q-Tel’den yapılan yatırım, teknolojimizin çok çeşitli sektörlerdeki potansiyelini yansıtıyor.” diyen Lee, “Bizim için olumlu, anlamlı ve sorumlu bir etki yaratma amacı taşıyan fırsatları keşfetmeye her zaman açığız.” şeklinde ekledi.