Google DeepMind, Google’ın önde gelen yapay zeka araştırma laboratuvarı, video üretme alanında OpenAI‘yi geçmeyi hedefliyor; ve bu hedefe ulaşma yolunda önemli adımlar atmış görünüyor.
Pazartesi günü, DeepMind Veo 2 adlı yeni nesil video üreten yapay zeka modelini tanıttı. Bu model, Google’ın ürün yelpazesinin artan bir kısmında kullanılan Veo‘nun halefidir. Veo 2, 4K çözünürlüğe (4096 x 2160 piksel) kadar uzanan ve iki dakikadan fazla uzunluğa sahip klipler oluşturabiliyor.
Önemli bir not: Bu, OpenAI‘nin Sora modelinin başarısına kıyasla oldukça büyük bir avantaj sağlıyor. Veo 2, 4 kat daha yüksek çözünürlük ve 6 kat daha uzun video süresi sunabiliyor.
Ancak şu anda bu, yalnızca teorik bir avantaj. Google’ın deneysel video oluşturma aracı olan VideoFX‘te, şu anda sadece Veo 2 kullanılabiliyor ve videolar 720p çözünürlük ve 8 saniye ile sınırlı. Sora ise maksimum 1080p çözünürlük ve 20 saniye süre sunabiliyor.
Daha Kontrol Edilebilir
Veo 2, tıpkı Veo gibi, metin istemleri (örneğin, “Bir aracın otobanda hızla gitmesi”) veya bir referans görüntüsü ile birlikte metin kullanarak videolar oluşturabiliyor.
Peki, Veo 2’de ne gibi yenilikler var? DeepMind, bu modelin fizik ve kamera kontrolü konusundaki gelişmiş anlayışına vurgu yapıyor; ayrıca daha “net” görüntüler üretiyor. Bu “netlik”, özellikle hareketli sahnelerde renk ve görüntülerin daha keskin olmasını sağlıyor.
Gelişmiş kamera kontrolleri sayesinde, Veo 2 videolarında sanal “kamerayı” daha hassas bir şekilde konumlandırabiliyor ve farklı açılardan nesneleri ve insanları çekmek için hareket ettirebiliyor.
Video Kalitesi
DeepMind, Veo 2’nin hareketi, sıvı dinamiklerini (örneğin, bir fincana kahve dökülmesi) ve ışık özelliklerini (gölge ve yansımalar gibi) daha gerçekçi bir şekilde modellediğini belirtiyor. Ayrıca, farklı lensler ve sinematik efektler kullanarak daha etkileyici ve “nüanslı” insan ifadeleri oluşturabiliyor.
DeepMind, Veo 2’den elde ettikleri örnekleri TechCrunch’a gösterdi ve bu videoların oldukça iyi göründüğünü ifade etti; özellikle sıvıların kırılmasını ve karmaşık yapımları başarıyla taklit edebildiğini vurguladı.
Ancak, Veo 2’nin bazı eksiklikleri mevcut. Örneğin, hayali parmaklar veya beklenmedik nesneler gibi hatalar oluşturma olasılığı hâlâ ortada duruyor.
Yaratıcılarla İş Birliği
DeepMind, sanatçılar ve prodüktörlerle birlikte çalışarak video üretim modellerini ve araçlarını geliştirmeye devam ediyor. Eli Collins, bunu yaparken birçok ünlü sanatçıyla da işbirliği yaptıklarını belirtti. “Örneğin, Donald Glover, the Weeknd, d4vd gibi yaratıcılarla çalıştık,” dedi Collins. “Veo 1 ile edindiğimiz tecrübeler, Veo 2’nin geliştirilmesinde yol gösterici oldu.”
Daha fazla ilerleme kaydetmekiçin kullanıcı geri bildirimlerine dayalı olarak güncellemeler yapmayı hedeflediklerini ifade etti:
“Önümüzdeki aylarda, kullanıcıların geri bildirimlerine göre devamlı geliştirmeye çalışacağız,” dedi Collins. “Ayrıca, Veo 2’nin gelişmiş yeteneklerini Google ekosistemindeki etkileyici kullanım alanlarına entegre etmeyi hedefliyoruz.”
Güvenlik ve Eğitim
Veo 2, çok sayıda video ile eğitildi. Bu, yapay zeka modellerinin çalışma şeklini belirliyor: Örnekler üzerinden sürekli eğitim alarak, yeni veriler oluşturmak için verilerdeki kalıpları öğreniyor.
DeepMind, tam olarak hangi videoları kullandığını açıklamıyor, ancak YouTube’un bir kaynak olabileceği belirtiliyor. Collins, “Veo, yüksek kaliteli video-açıklama çiftleri üzerine eğitim aldı,” diyor.
Yaratıcıların fikrini almak için iş birliği yaparak geliştirildiklerini vurgulayan Collins, “Hedefimiz, yaratıcılarla iş birliği yaparak ortak hedeflerimize ulaşmak,” dedi.
Riskler de mevcut. Bu tür modellerin bir sorunu, eğitim verisini tekrar etmektir. DeepMind, buna karşı kullanıcıları korumak için belirli filtreler uyguluyor.