Google’dan Yeni AI Görüntü Modeli
Google, Gemini chatbot’unu yeni bir AI görüntü modeliyle güncelleyerek kullanıcıların fotoğrafları üzerinde daha ince ayar yapma imkanı sunuyor. Bu adım, OpenAI’nin popüler ChatGPT görüntü araçlarına ayak uydurmak ve kullanıcıları kendine çekmek amacı taşıyor.
Güncelleme, Gemini 2.5 Flash Image olarak adlandırılıyor ve Salı günü itibarıyla tüm kullanıcılar için Gemini uygulamasında, ayrıca geliştiriciler için Gemini API, Google AI Studio ve Vertex AI platformlarında kullanılabilir hale geliyor.
Gelişmiş Görüntü Düzenleme Özellikleri
Gemini’nin yeni AI görüntü modeli, kullanıcıların doğal dildeki isteklerine dayalı olarak daha hassas düzenlemeler yapabilmek için tasarlandı. Bu model, yüzlerin, hayvanların ve diğer detayların tutarlılığını koruyarak düzenleme yapıyor, ki bu çoğu rakip araçta zor gerçekleştirilen bir durum. Örneğin, ChatGPT veya xAI’nin Grok modeline bir kişinin gömleğinin rengini değiştirmesi istendiğinde, sonuç çoğu zaman yüzün bozulması veya arka planın değişmesi gibi hatalar içeriyor.
Sosyal Medyada Dikkat Çekti
Google’ın yeni aracı, son haftalarda dikkat çekti. Sosyal medya kullanıcıları, kalabalık bir değerlendirme platformu olan LMArena üzerinde etkileyici bir AI görüntü düzenleyicisi için övgü dolu yorumlar yaptı. Model, anonim olarak “nano-banana” takma adıyla kullanıcılara sunuluyordu.
Google, bu modelin arkasında olduğunu ifade etti (eğer tüm muzla ilgili ipuçlarından dolayı apart görünmüyorsa) ve bu, Gemini 2.5 Flash AI modelinin içindeki yerel görüntü yeteneği olarak tanımlanıyor. Google, bu görüntü modelinin LMArena ve diğer kıyaslamalarda en ileri düzeyde olduğunu belirtiyor.
Görsel Kaliteyi İleriye Taşıyor
Nicole Brichtova, Google DeepMind’teki görsel üretim modellerinin ürün lideri, TechCrunch ile yaptığı bir röportajda; “Görsel kalitede önemli ilerlemeler kaydediyoruz ve modelin talimatları takip etme kabiliyeti artırıldı.” dedi.
Brichtova ayrıca, “Bu güncelleme, düzenlemeleri daha kusursuz hale getiriyor ve modelin çıktıları kullanışlı hale geliyor.” diyerek kullanıcı deneyiminin geliştirilmesine vurgu yaptı.
AI görüntü modelleri, büyük teknoloji şirketleri için önemli bir rekabet alanı haline geldi. OpenAI, Mart ayında GPT-4’ün yerel görüntü üreticisini piyasaya sürdüğünde, bu durum ChatGPT‘nin kullanımını arttırdı. OpenAI CEO’su Sam Altman, AI tarafından üretilen Studio Ghibli temalı meme’lerin GPU’larını “erittiğini” ifade etti.
OpenAI ve Google ile rekabet edebilmek için, Meta geçen hafta AI görüntü modellerini Midjourney adlı bir startuptan lisanslayacağını duyurdu. Bunun yanında, a16z destekli Alman unicorn Black Forest Labs, FLUX AI görüntü modelleriyle kıyaslamalarda liderliğini sürdürüyor.
Kullanıcıların Yaratıcılığını Artırmak
Belki de Gemini’nin etkileyici AI görüntü düzenleyicisi, Google’ın OpenAI ile olan kullanıcı farkını kapatmasına yardımcı olabilir. ChatGPT günlük olarak 700 milyondan fazla kullanıcı kaydediyor. Google’ın Temmuz ayında yaptığı kazanç çağrısında CEO Sundar Pichai, Gemini’nin aylık 450 milyon kullanıcısı olduğunu açıkladı — bu da haftalık kullanıcı sayısının daha düşük olduğunu ima ediyor.
Brichtova, Google’ın görüntü modelini özellikle tüketici kullanımı için tasarladığını belirtti. Model, sürekli bir referansla birden fazla resmi birleştirme yeteneğine sahip; örneğin, bir kanepe, bir oturma odası fotoğrafı ve bir renk paletini birleştirerek tek bir uyumlu görsel yaratabiliyor.
Gemini’nin yeni AI görüntü üreticisi, kullanıcıların gerçekçi görüntüler oluşturmasını kolaylaştırsa da, Google bunun yanında kullanıcıların neler üretebileceğini sınırlayan güvenlik önlemlerine de sahip. Şirket, geçmişte AI görüntü üreticisinin tarihsel olarak yanlış resimler üretmesi nedeniyle eleştirildi ve bu nedenle AI görüntü üreticisini tamamen geri çekmek zorunda kalmıştı.
Şimdi Google, doğru bir denge kurduğunu düşünüyor. Brichtova, “Kullanıcılara yaratıcı kontrol sağlamak istiyoruz böylece modellerden istediklerini elde edebilsinler,” diyerek kullanıcı deneyiminin önemine vurgu yapıyor. Ancak, “sınırsız bir ortam değil” ifadelerinde bulunarak bu duruma dikkat çekiyor.
Google’ın hizmet koşulları, kullanıcıların “rızasız özel görüntüler” üretmelerini yasaklıyor. Ancak bu tür korumaların Grok için geçerli olmadığı görülüyor; bu platform, kullanıcıların ünlülerin simasına benzer açık görüntüler yaratmasına izin verdi.
Son olarak, derin sahte görüntülerin artan riskine karşı, Brichtova saydam su işaretleri ile birlikte AI tarafından üretilen görüntülere görsel su işaretleri uyguladıklarını ve bunun yanına meta verilerde de tanımlayıcılar sunduklarını belirtiyor. Ancak, bir kişinin sosyal medyada bir görüntüye bakarken bu tür tanımlayıcıları merak edeceğini düşünmek zor.