Günlük ve haftalık bültenlerimize katılarak endüstri lideri yapay zeka haberlerinde en son güncellemeleri ve özel içerikleri alın. Daha Fazla Bilgi
Microsoft araştırmacıları ve akademik ortaklardan oluşan ekip tarafından hazırlanan kapsamlı bir yeni anket, büyük dil modelleri (LLM’ler) ile güçlendirilmiş yapay zeka ajanlarının grafik kullanıcı arayüzlerini (GUI) kontrol etme yeteneklerinin artmakta olduğunu ortaya koyuyor. Bu, insanların yazılımla etkileşim biçimlerini değiştirebilir.
Bu teknoloji, AI sistemlerinin bilgisayar arayüzlerini insanların yaptığı gibi görüp manipüle etme yeteneği kazandırıyor; butonlara tıklama, formları doldurma ve uygulamalar arasında gezinti yapma gibi işlemleri gerçekleştirebiliyor. Kullanıcıların karmaşık yazılım komutlarını öğrenmesine gerek kalmadan, bu “GUI ajanları” doğal dil taleplerini yorumluyor ve gerekli eylemleri otomatik olarak yerine getiriyor.
Yeni Dönemin Ajanları
Araştırmacılar, “Bu ajanlar, kullanıcıların karmaşık çok adımlı görevleri basit konuşma komutlarıyla yerine getirmesine olanak tanıyor,” diyor. “Uygulamaları, web tarayıcısı navigasyonundan mobil uygulama etkileşimlerine ve masaüstü otomasyona kadar uzanıyor, bu da yazılımla etkileşim biçimlerini devrim niteliğinde değiştiren bir kullanıcı deneyimi sunuyor.”
Bunu, sizin adınıza herhangi bir yazılım programını çalıştırabilen son derece yetenekli bir yönetici asistanı olarak düşünün. Siz neyi başarmak istediğinizi söylersiniz, o da tüm teknik detayları halleder.
Kurumsal AI Asistanlarının Yükselişi
Büyük teknoloji şirketleri bu yetenekleri ürünlerine entegre etmek için yarışıyor. Microsoft’un Power Automate‘ı, kullanıcıların uygulamalar arasında otomatik iş akışları oluşturmasına yardımcı olmak için LLM’leri kullanıyor. Şirketin Copilot AI asistanı, metin komutlarına dayanan yazılım kontrolü yapabiliyor. Anthropic’in Claude için geliştirdiği Bilgisayar Kullanımı işlevi, AI’nın web arayüzleri ile etkileşim kurarak karmaşık görevler gerçekleştirmesini sağlıyor. Google’ın ise web tabanlı görevleri gerçekleştirecek bir AI sistemi olan Project Jarvis‘i geliştirdiği bildiriliyor, ancak bu yetenek hâlâ geliştirilme aşamasında ve kamuya açılmış değil.
Pazar Fırsatları ve Zorluklar
“Büyük Dil Modellerinin ortaya çıkması, özellikle çok modlu modeller, GUI otomasyonu için yeni bir dönem başlattı,” deniyor. “Doğal dil anlama, kod üretimi, görev genelleştirmesi ve görsel işleme konularında olağanüstü yetenekler sergilediler.”
Analistler BCC Research, bu gelişmelerin, işletmelerin tekrarlayan görevleri otomatikleştirmek ve yazılımlarını teknik bilgiye sahip olmayan kullanıcılar için daha erişilebilir hale getirmek istemesiyle birlikte, 2028 yılına kadar $68.9 milyar’lık bir pazar fırsatı sunduğunu belirtiyor. Pazarın, 2022’deki 8.3 milyar dolardan bu rakama ulaşırken, yıllık bileşik büyüme oranının (CAGR) %43.9 olacağı öngörülüyor.
Ancak, bu teknolojinin yaygın kurumsal benimsenmesi için önemli engeller mevcut. Araştırmacılar, gizlilik endişeleri, hesaplama performansına ilişkin sınırlamalar ve daha iyi güvenlik ile güvenilirlik garantilerine duyulan ihtiyacı belirtiyor.
“Tanımlanmış iş akışları için etkili olsalar da, bu yöntemler dinamik gerçek dünya uygulamaları için gereken esneklik ve uyarlanabilirlikten yoksundu,” diyor araştırmacılar. Takım, bu zorlukların üstesinden gelmek için detaylı bir yol haritası sunuyor; daha yerel cihazlarda çalışabilecek daha verimli modeller geliştirme, sağlam güvenlik önlemleri uygulama ve standart değerlendirme çerçeveleri oluşturmanın önemini vurguluyor.
“Gizlilik ve güvenlik için çeşitli eylemler sağlayarak bu ajanlar, karmaşık komutları yerine getirirken verimlilik ve güvenliği sağlar,” diye ekliyorlar.
Büyük teknoloji kuruluşları için, LLM destekli GUI ajanlarının ortaya çıkması, hem bir fırsat hem de stratejik bir değerlendirme gerektiriyor. Bu teknoloji, otomasyon yoluyla önemli verimlilik artışları vaadetse de, kuruluşlar bu AI sistemlerinin dağıtımında güvenlikle ilgili endişeleri ve altyapı gereksinimlerini dikkatlice değerlendirmelidir.
Uzmanlar, 2025 yılına kadar en az büyük kuruluşların %60’ının bir tür GUI otomasyon ajanını pilot uygulamalarda deneyeceğini öngörüyor. Bu durum, önemli verimlilik kazançlarına yol açabilecek ancak aynı zamanda veri gizliliği ve iş kaybı gibi önemli soruları da gündeme getirebilir.
Sonuç olarak, bu kapsamlı anket, konuşma AI arayüzlerinin insanların yazılımlarla etkileşim biçimlerini köklü bir şekilde değiştirme potansiyeline sahip olduğuna işaret ediyor. Ancak bu potansiyelin gerçekleştirilmesi, teknoloji ve kurumsal dağıtım uygulamalarında devam eden ilerlemeleri gerektirecektir.
“Bu gelişmeler, karmaşık ve dinamik ortamlarda yüksek performans sergileyebilen daha versatil ve güçlü ajanlar oluşturmanın temelini atıyor,” diyor araştırmacılar.