Günlük ve haftalık bültenlerimize katılarak sektör lideri AI haberleriyle ilgili en son güncellemeleri ve özel içerikleri takip edebilirsiniz. Daha fazla bilgi için tıklayın.
Yapay zeka destekli tarayıcı kullanım ajanlarının yeni bir dalgası ortaya çıkıyor ve bu, işletmelerin web ile etkileşimini dönüştürme vaadinde bulunuyor. Bu ajanlar, web sitelerini otonom bir şekilde gezinebiliyor, bilgi alabiliyor ve hatta işlemleri tamamlayabiliyor – ancak erken testler, vaat ile performans arasında önemli boşlukların olduğunu ortaya koyuyor.
OpenAI’nin yeni tarayıcı ajanı Operator gibi tüketici örnekleri, pizza siparişi veya oyun biletleri satın alma gibi işlemlerle dikkatları üzerine çekerken, asıl soru, bu tür teknolojilerin ana geliştirici ve işletme kullanım durumlarının neler olacağı. Red Dragon’un kurucu ortağı Sam Witteveen, “Ne olacağını bilmiyoruz ama büyük ihtimalle, webde zaman alan ve keyif vermeyen işler olacak,” diyor. En çok ses getirebilecek senaryolar arasında, en ucuz ürün fiyatlarını aramak veya en iyi otel rezervasyonunu yapmak yer alıyor. Bu tür uygulamalar, derin araştırma gibi diğer araçlarla bir araya geldiğinde daha karmaşık görevlerin yerine getirilmesine olanak sağlayacak.
Tarayıcı Kullanım Ajanları Alanındaki Ana Oyuncular
Bu alan, büyük teknoloji şirketleri ile yenilikçi girişimlerin hızlı bir şekilde büyüyen bir rekabet ortamına girmesiyle dolup taşıyor:
- OpenAI’nin Operator’ü (Ocak 2025’te piyasaya sürüldü) – Tüketici dostu web otomasyonu üzerine odaklanarak, ChatGPT Pro abonelerine (aylık 200 $) sunuluyor.
- Convergence’in Proxy’si (Aralık 2024’te piyasaya sürüldü) – Birleşik Krallık merkezli bir girişim, sınırlı ücretsiz kullanım (günde 5 oturum) veya 20 $/aylık sınırsız erişim sunuyor.
- Google’ın Project Mariner’i – Şu anda önizleme testi aşamasında, erişim için bekleme listesi mevcut.
- Anthropic’in Computer Use’u (Ekim 2024’te piyasaya sürüldü) – Yakında güncelleme alması bekleniyor.
- Microsoft’un OmniParser V2’si (Şubat 2025) – Kullanıcı arayüzü ekran görüntülerini, LLM’lerin sitelerle etkileşime girmesine ve anlamasına olanak sağlayan yapılandırılmış verilere dönüştürmek için açık kaynaklı bir proje.
- ByteDance’ın UI-TARS’ı – Daha derin sistem erişimi gerektiriyor ve bu da potansiyel güvenlik endişeleri yaratıyor.
- Browser-Use – Geliştirici odaklı bir araç, kullanılacak AI modellerinin seçimine izin veriyor.
Operator ve Proxy, kullanıcı dostu ve hazır olan en gelişmiş örnekler arasında. Diğerleri daha çok geliştirici veya işletme kullanımına yönelik pozisyon alıyor. Browser Use, kullanıcıların ajanla birlikte kullandıkları modelleri özelleştirebilmesine olanak tanırken, deneyim gerektiriyor.
Testler Akıl Yürütme Zorluklarını Ortaya Koyuyor
Test edilebilen en basit araçlar OpenAI’nin Operator’ü ve Convergence’in Proxy’si. Yaptığımız testler, akıl yürütme yeteneklerinin ham otomasyon özelliklerinden daha fazla önem taşıdığını gösterdi. Özellikle Operator, daha fazla hata verdi.
Örneğin, ajanlardan VentureBeat’in en popüler beş hikayesini bulup özetlemelerini istedik. Ancak bu belirsiz bir görevdi çünkü VentureBeat’te “en popüler” bir bölüm yok. Operator bu görevi tamamlamakta zorluk çekti; önce sonsuz bir kaydırma döngüsüne girdi. Diğer yandan, Proxy, anasayfadaki en görünür beş hikayeyi bulup özetlemekte daha iyi bir akıl yürütme sergiledi.
Gerçek dünyada yapılan görevlerdeki farklar daha da belirgin hale geldi. İki ajanın da Napa, Kaliforniya’da romantik bir restoranda öğle yemeği için rezervasyon yapmasını istedik. Operator, önce romantik bir restoran bulmaya çalışıp ardından öğle saatindeki müsaitliği kontrol etti. Masalar dolu olunca problemi aşamadı. Ancak Proxy, daha karmaşık bir akıl yürütme ile OpenTable üzerinden uygun, romantik ve mevcut olan restoranları hızlıca buldu.
İşletme Açısından Sonuçlar
Otomasyon için işletme üzerindeki etkileri önemli. Witteveen, bunun, birçok şirketin temel web araştırması ve veri toplama görevlerini gerçekleştiren sanal asistanlar için ödeme yaptığını belirtiyor. Bu tür tarayıcı kullanım ajanları, ilk başta çok sayıda işin kaybını tetikleyebilir.
Bu durum, otomatik süreç otomasyonu (RPA) trendini besleyebilir. Tarayıcı kullanımının da şirketlerin daha fazla görevi otomatik hale getirmesinde bir araç olarak yer bulacağını söyleyebiliriz. Kullanıcılar bir ajanın, derin araştırma gibi başka araçlarla birleştiğinde daha güçlü sonuçlar elde edecektir.
Maliyet Dinamikleri Yeniliği Teşvik Ediyor
Hızlı gelişimi etkileyen bir diğer önemli faktör, derin araştırma yapan DeepSeek-R1 gibi güçlü açık kaynaklı akıl yürütme modellerinin mevcutlığıdır. Bu, tarayıcı kullanım ajanı oluşturan şirketlerin, kendi modellerini oluşturmak yerine bu modelleri kullanarak büyük oyuncularla rekabet etmesine olanak tanır.
Fiyatlama baskısı zaten açık. OpenAI, Operator’a erişim için aylık 200 $’lık bir ChatGPT Pro aboneliği gerektirirken, Convergence sınırlı ücretsiz kullanım ve 20 $/aylık sınırsız plan sunuyor. Bu rekabetçi dinamik, işletme benimsemesini hızlandırabilir.