Google’ın yeni Amiral Gemisi AI: Gemini 2.0, metin, görüntü ve ses üretebiliyor.

Google, OpenAI‘nin yeni ürünleriyle rekabet etmek amacıyla yeni bir yapay zeka modeli tanıttı.

Çarşamba günü, Google, Gemini 2.0 Flash adlı yeni AI modelini duyurdu. Bu model, yalnızca metin değil, aynı zamanda görüntü ve sesi de yerel olarak üretebiliyor. Ayrıca, üçüncü parti uygulamalara ve servislere entegre olabiliyor; bu sayede Google Arama’yı kullanabiliyor, kod çalıştırabiliyor ve daha fazlasını yapabiliyor.

Geliştirici platformları olan AI Studio ve Vertex AI üzerinden Gemini API ile 2.0 Flash’ın bir deneme sürümü bugün kullanıma açılacak. Ancak, ses ve görüntü üretim özellikleri yalnızca “erken erişim ortakları” için mevcut olacak; geniş bir dağıtım ise Ocak ayında yapılacak.

Flash, Yeni Bir Yenilikle

İlk nesil Flash olan 1.5 Flash, yalnızca metin üretebiliyor ve yoğun işlemler için tasarlanmamıştı. Google’a göre, bu yeni model daha çok yönlü; çünkü arama gibi araçları çağırabiliyor ve dış API’lerle etkileşime geçebiliyor.

Google, 2.0 Flash’ın 1.5 Pro modeline kıyasla belirli testlerde iki kat daha hızlı olduğunu iddia ediyor. Model, kodlama ve görüntü analizi gibi alanlarda “önemli ölçüde” geliştirilmiş durumda. 2.0 Flash, üstün matematik yetenekleri ve “gerçeklik” anlayışı sayesinde Gemini modelinin amiral gemisi konumuna gelmiş durumda.

Önemli Yeni Özellikler

2.0 Flash, metinle birlikte görüntü üretebiliyor ve bu görüntüleri değiştirebiliyor. Ayrıca, fotoğraflar ve videolar ile ses kayıtlarını işleyerek bu içeriklere dair soruları yanıtlayabiliyor (örneğin: “Ne söyledi?” gibi).

Ses üretimi, 2.0 Flash’ın diğer önemli bir özelliği. Tulsee Doshi, bu özelliği “yönlendirilabilir” ve “özelleştirilebilir” bir biçimde tanımladı. Örneğin, model, metni, farklı aksanlarda ve dillerde optimize edilmiş sekiz farklı ses ile anlatabiliyor.

“Model, konuşma hızını değiştirmek veya bir korsan gibi konuşmasını istemek gibi çeşitli komutlara yanıt verebilir,” dedi Doshi, bu özelliklerin kullanıcı deneyimini zenginleştireceğini belirtti.

Su İşareti Teknolojisi

Önemli bir nokta olarak, Google, 2.0 Flash tarafından üretilen tüm ses ve görüntüleri su işareti teknolojisi olan SynthID ile etiketleyeceğini duyurdu. Bu teknoloji, yalnızca belirli Google ürünlerinde model çıktılarının sentezlenmiş olduğunu işaretliyor.

Bu, kötüye kullanım korkularını azaltmak adına yapıldığı ifade edildi. Sonuçta, derin sahtekarlıklar giderek artan bir tehdit oluşturuyor. ID doğrulama hizmeti Sumsub’a göre, 2023 ile 2024 arasında tespit edilen derin sahtekarlıklarda dört kat artış yaşandı.

Yenilikçi API Duyurusu

2.0 Flash’ın üretim sürümü Ocak ayında piyasaya sürülecek. Ancak bu arada, Google gerçek zamanlı ses ve video akış işlevselliği sunan yeni bir API, Multimodal Live API, geliştiricilerin kullanımına sunuluyor. Bu API ile geliştiriciler, kamera veya ekranlardan ses ve video girişi alabilen gerçek zamanlı çok modlu uygulamalar oluşturabiliyorlar.

Multimodal Live API, kullanıcıların doğal konuşma desenlerini (örneğin, kesintiler gibi) işleme yeteneğine sahip. Bu, OpenAI’nin Realtime API’sine benzer işlevler sunarak uygulamaların etkileşimini zenginleştiriyor.

Bu API genel olarak bu sabah itibarıyla erişime açıldı ve geliştiricilerin yeni nesil uygulamalar geliştirmesine olanak tanıyor.

Exit mobile version