Alibaba’nın Qwen Ekibi, PC ve Telefonları Kontrol Edebilen AI Modelleri Yayınladı

Alibaba’nın Yeni AI Modelleri: Qwen2.5-VL

Çinli AI laboratuvarı DeepSeek bu hafta teknoloji dünyasının gözdesi olabilir, ancak onun en büyük rakibi Alibaba sessiz durmuyor.

Özellikleri ve Performansı

Alibaba’nın Qwen ekibi, Pazartesi günü yeni AI modelleri ailesi Qwen2.5-VL‘yi sundu. Bu modeller, metin ve görüntü analizi gibi birçok görevi yerine getirebiliyor. Dosyaları analiz etme, videoları anlama ve görüntülerdeki nesneleri sayma gibi yetenekleri var ve bir bilgisayarı kontrol edebiliyorlar; bu özellik, OpenAI’nin yeni tanıttığı Operator modeline benzer.

Qwen ekibinin verdiği bilgiye göre, en iyi Qwen2.5-VL modeli, video anlama, matematik, doküman analizi ve soru-cevap değerlendirmelerinde, OpenAI‘nin GPT-4o’sunu, Anthropic‘ın Claude 3.5 Sonnet’ini ve Google‘ın Gemini 2.0 Flash’ını geçiyor.

Yenilikçi Özellikleri ve Kısıtlamaları

Qwen2.5-VL modeli, Alibaba’nın Qwen Chat uygulamasında test edilebilirken, AI geliştirici platformu Hugging Face‘den indirilebilir. Tasarımcılar, bu modelin grafik ve çizelge analizinden, fatura ve form taramalarından veri çıkarma gibi işlevlere sahip olduğunu ve birkaç saatlik videoları “anlayabildiğini” belirtiyor. Ayrıca, dizilerden ve filmlerden IP’leri tanıma yeteneği de var; bu da modelin bazı telif haklarına tabi çalışmalar üzerinde eğitilmiş olabileceğini gösteriyor.

Qwen2.5-VL’nin belirli konular hakkında konuşma kısıtlamaları bulunuyor. Örneğin, en gelişmiş model olan Qwen2.5-VL-72B’ye “Xi Jinping’in hatalarını” sorduğumda, Qwen Chat bir hata mesajı verdi. Çin’in internet düzenleyicisi, ülkede geliştirilen birçok modeli “temel sosyalist değerlerin” yansımasını sağlamak için standartlara tabi tutuyor. Bu nedenle birçok Çinli AI sistemi, düzenleyicilerin öfkesini tetikleyebilecek konularda, örneğin Taiwan’ın özerkliği gibi, yanıt vermek istemiyor.

Yazılım ile Etkileşim Yeteneği

Qwen2.5-VL’nin dikkat çekici özelliklerinden biri, hem bilgisayarlar hem de mobil cihazlar üzerinde yazılımlarla etkileşim kurabilme kabiliyeti. Hugging Face’in teknik liderlerinden Philipp Schmid’in sosyal medya üzerinde paylaştığı bir videoda, Qwen2.5-VL’nin Android için Booking.com uygulamasını başlatıp, Chongqing’den Pekin’e uçuş rezervasyonu yaptığı gösteriliyor.

Ancak, Qwen2.5-VL’nin bir Linux masaüstündeki uygulamaları kontrol ederken çok etkili olmadığı görülüyor. Qwen’in benchmark’ları, Qwen2.5-VL’nin gerçek bir bilgisayar ortamını taklit etmeyi amaçlayan OSWorld testinde düşük puan aldığını gösteriyor.

Qwen2.5-VL serisinin daha küçük ve daha az sofistike olan Qwen2.5-VL-3B ve Qwen2.5-VL-7B modelleri, daha geniş bir lisansla sunulurken; amiral gemisi Qwen2.5-VL-72B ise Alibaba’nın özel bir lisansı altında bulunuyor. Bu lisans, aylık 100 milyon aktif kullanıcıdan fazla olan şirketlerin ve geliştiricilerin, modeli ticari amaçlarla kullanmadan önce Qwen/Alibaba’dan izin almasını gerektiriyor.

Exit mobile version