Hybrid AI Modelı Saniyeler İçinde Pürüzsüz, Yüksek Kaliteli Videolar Oluşturuyor

05/06/2025 8:51 PM

Yapay Zeka ile Hızlı Video Üretimi

Yapay zeka modelinin arka planda nasıl çalıştığını düşünmek, durmaksızın yapılan bir animasyon süreci olduğunu düşündürebilir; ama bu, OpenAI’nin SORA ve Google’ın VEO 2 gibi “difüzyon modelleri” için doğru değil.

Difüzyon sistemleri, videoları her bir kareyi ayrı ayrı üretmek yerine (ya da “autoregressively” olarak), tüm sekansı bir arada işler. Bu da genellikle fotogerçekçi bir klip ortaya çıkarır, ancak süreç yavaş ve anlık değişikliklere izin vermez. Ancak, MIT’nin Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı (CSAIL) ve Adobe Araştırma ekibi, saniyeler içinde video oluşturan yeni bir yaklaşım geliştirdi: “CausVid.”

Hızlı ve Etkileşimli İçerik Üretimi

CausVid, bir tam sıra difüzyon modelinin, yüksek kaliteli ve tutarlı bir şekilde gelecek kareyi hızlıca tahmin etmesini sağlamak için bir autoregresif sistemi eğittiği bir “öğrenci” modeli olarak düşünülüyor. Bu, kullanıcıların basit bir metin istemiyle sahneler yaratmasına olanak tanıyor; örneğin bir fotoğrafı hareketli bir sahneye dönüştürmek, bir videoyu uzatmak veya oluşturulan sahneyi yeni girdilerle değiştirmek mümkün hale geliyor.

Dinamik yapısı sayesinde, CausVid, 50 adımlık bir süreci yalnızca birkaç eyleme indiriyor. Kullanıcılar “yolda yürüyen bir adam üret” gibi bir istemde bulunabilir ve ardından “karşı kaldırımda not defterine yazıyor” gibi yeni öğeler ekleyerek sahneyi zenginleştirebilir.

Hata Toleransı ve Kalite

CSAIL araştırmacıları, CausVid’in farklı video düzenleme görevlerinde kullanılabileceğini belirtiyor. Örneğin, bir canlı yayını başka bir dilde anlamak için sesi senkronize eden videolar üretebilir ya da video oyunlarında yeni içerikler oluşturabilir.

CausVid’in başarısını, difüzyon bazlı modelin ve metin üretiminde yaygın olan autoregresif mimarinin birleşiminde bulan Tianwei Yin, “Bu AI destekli öğretici model, gelecekteki adımları öngörerek bir kareler dizi sistemini eğitiyor ve böylece hata oranını azaltıyor.” diyor.

CausVid, 10 saniye uzunluğundaki yüksek çözünürlüklü videoları başarılı bir şekilde oluşturdu. Açık kaynaklı OpenSORA ve MovieGen benzerlerine kıyasla, 100 kat daha hızlı çalıştı ve yüksek kaliteli klipler üretti. Ayrıca, kullanıcıların CausVid’in öğrenci modelinin ürettiği videoları, difüzyon bazlı öğreticiden daha çok beğendiği tespit edildi.

Sonuç olarak, CausVid, AI video üretiminde verimli bir adım olarak öne çıkıyor ve bu yeni hibrit sistem, gecikmeleri azaltarak, akış hızını artırıyor ve daha etkileşimli uygulamalara olanak tanıyor.