Günlük ve haftalık bültenlerimize katılın, endüstri lideri yapay zeka haberleri hakkında en son güncellemeleri ve özel içerikleri alın. Daha Fazla Bilgi
ByteDance araştırmacıları, bireysel fotoğrafları gerçekçi, hareketli videolara dönüştüren bir yapay zeka sistemi geliştirdi. Bu yenilik, dijital eğlence ve iletişim alanını yeniden şekillendirme potansiyeline sahip.
Yeni sistem, OmniHuman, insanların konuşmalarına, şarkı söylemelerine ve doğal bir şekilde hareket etmelerine dayalı, tam vücut videoları üretme kapasitesine sahip. Bu teknoloji, sadece yüz veya üst vücut animasyonları yapabilen önceki AI modellerini geride bırakıyor.
OmniHuman Nasıl Çalışıyor?
“Sıfırdan insana animasyon, son yıllarda önemli ilerlemeler kaydetti. Ancak mevcut yöntemler, büyük genel video üretim modellerinde ölçeklenme konusunda hâlâ zorluk yaşıyor,” diyen araştırmacılar, arXiv’de yayımlanan bir makalede bu durumu açıkladılar.
OmniHuman, 18,700’den fazla saatlik insan video verisi üzerinde eğitim aldı. Bu eğitim, metin, ses ve vücut hareketleri gibi birden fazla girdi kombinasyonu ile gerçekleştirildi. Bu “çoklu koşul” eğitim stratejisi, AI’nin daha önceki yöntemlerden çok daha büyük ve çeşitli veri setlerinden öğrenmesini sağlıyor.
Doğal Hareketler ve İfade Yeteneği
“Birden fazla koşullandırma sinyali, örneğin metin, ses ve vücut duruşunu, eğitim sırasında dahil etmenin veri israfını önemli ölçüde azaltabileceği anahtar bir bulgumuzdur,” diyor araştırma ekibi.
Bu teknoloji, yapay zeka tarafından üretilen medya alanında önemli bir ilerleme kaydediyor ve videoların insanların konuşmalarını sunmasından müzikal enstrüman çalan kişileri göstermeye kadar birçok alanda yetenek sergiliyor. Testlerde, OmniHuman mevcut sistemlere göre birçok kalite kriterinde daha iyi performans gösterdi.
Yarış ve Gelecek Beklentileri
Bu gelişme, Google, Meta ve Microsoft gibi diğer büyük teknoloji firmalarının da benzer teknolojiler geliştirmeye çalıştığı bir dönemde gerçekleştirilmiştir. ByteDance’ın elde ettiği bu başarı, hızlı bir şekilde gelişen bu alanda firmaya ciddi bir avantaj sağlayabilir.
Uzmanlar, bu tür teknolojilerin eğlence prodüksiyonu, eğitim içeriği oluşturma ve dijital iletişimi dönüştürebileceğini vurguluyor. Ancak, aynı zamanda bu teknolojilerin yanıltıcı amaçlarla yapay medya yaratımında kötüye kullanım risklerini de beraberinde getirdiği konusunda da endişeler mevcut.
Araştırmacılar, bulgularını önümüzdeki bir bilgisayarla görüntüleme konferansında sunacak, ancak hangi konferans olduğu henüz belirtilmedi.