Gemini 2.5 ‘Bilgisayar Kullanımı’ AI Modeli, Web Sitelerini Otonom Olarak Gezinme Yeteneğine Sahip

Google, internetle etkileşim kurabilen, insan benzeri bir şekilde çalışan yenilikçi bir AI modeli olan Gemini 2.5 Computer Use‘u duyurdu. Bu özel yapay zeka, web tarayıcılarında gezinebilir, butonlara tıklayabilir, formları doldurabilir ve hatta sayfaları kaydırabilir; hepsi basit bir metin komutuyla yapılabilir. Bu model, karmaşık dijital görevleri otonom bir şekilde yerine getirebilen AI ajanları yaratma yolunda önemli bir adım.

Gemini 2.5 Computer’ın Özellikleri

Gemini 2.5 Pro‘nun yetenekleri üzerine inşa edilen bu AI modeli, sanal bir tarayıcı ortamında çalışmasıyla kendisini farklı kılmaktadır. Rakip AI ajanlarının aksine, Google’ın modeli tam bir masaüstü işletim sistemine erişmek yerine, yalnızca web ve mobil arayüzleri üzerinde odaklanıyor. Bu yaklaşım, daha önce insan müdahalesi veya karmaşık API entegrasyonları gerektiren günlük dijital işleri kolayca halletmesine olanak tanıyor. Örneğin, bu yapay zeka, detaylı bir çevrimiçi formu doldurabilir veya dağınık bir web sitesinde gezinebilir.

Görev Tamamlama Süreci

Gemini 2.5 Computer Use‘un temelini bir tekrarlamalı geri bildirim döngüsü oluşturuyor. Kullanıcı bir görev verdiğinde, model önce isteği, mevcut ekranın bir ekran görüntüsünü ve önceki eylemlerinin geçmişini alıyor. Sonrasında bu bilgileri işleyerek belirli bir kullanıcı arayüzü eylemi öneriyor; örneğin bir bağlantıya tıklamak ya da bir alana yazı girmek gibi. İstemci tarafı kodu bu eylemi gerçekleştiriyor, ekran güncelleniyor ve yeni bir ekran görüntüsü AI’ya geri gönderiliyor. Bu döngü, orijinal görev tamamlanana kadar devam ediyor.

Performans ve Güvenlik

Google, Gemini 2.5 Computer Use modelinin “birçok web ve mobil benchmarkta önde olduğunu” ve daha az gecikme süreleriyle performans gösterdiğini iddia ediyor. AI, 2048 gibi oyunlar oynamak veya web sitelerinde gezinmek gibi görevleri başarıyla yerine getiriyor. Ayrıca, kısa testler AI’nın Google Arama CAPTCHA’larını çözebildiğini de gösteriyor ki bu, insan olmayan kullanıcılar için önemli bir engeldir.

Ancak güvenlik konusuna da önem veriliyor. Google, bilgisayarlara hâkim olan AI ajanları ile ilişkili eşsiz risklerin farkındadır. Bu nedenle model, potansiyel kötüye kullanımları engelleyebilmek adına çeşitli güvenlik özellikleriyle donatılmıştır. Geliştiriciler, AI’nın kullanıcıların açık izni olmaksızın güvenliği tehlikeye atacak yüksek riskli eylemler gerçekleştirmesini önlemek için araçlar alıyorlar.

Şu anda Gemini 2.5 Computer Use, geliştiriciler için Gemini API aracılığıyla Google AI Studio ve Vertex AI’de kullanılabilir. Fakat bu teknoloji, daha geniş bir kullanıcı kitlesi için henüz doğrudan erişilebilir değildir. Yine de, bu teknoloji, AI’nın rutin dijital etkileşimlerimizi daha fazla yönetebileceği bir geleceği işaret ediyor.

Exit mobile version