Patronus AI’nin Judge-Image’ı, AI’yi dürüst tutmayı hedefliyor

Günlük ve haftalık bültenlerimize katılın, endüstrinin önde gelen AI kapsamındaki en son güncellemeler ve özel içerikler için. Daha fazla bilgi edinin.

Patronus AI, bugün resim yorumlama ve metin üretme yeteneğine sahip AI sistemlerini değerlendirmek için tasarlanmış, sektörün ilk çok modlu büyük dil modeli-jüri aracı (MLLM-as-a-Judge) olarak tanımladığı teknolojiyi duyurdu.

Bu yeni değerlendirme teknolojisi, geliştiricilerin çok modlu AI uygulamalarındaki hayalet görüntü ve güvenilirlik sorunlarını tespit edip hafifletmelerine yardımcı olmayı amaçlıyor. E-ticaret devi Etsy, bu teknolojiyi, kendi el yapımı ve vintage ürünler pazarında ürün resimlerinin başlık doğruluğunu doğrulamak için şimdiden uygulamaya koydu.

Nasıl Çalışıyor?

Patronus’un ilk MLLM-as-a-Judge modeli, Judge-Image, Google’ın Gemini modeline dayanarak geliştirildi. Patronus, bu modelin alternatifleri olan OpenAI’nin GPT-4V ile karşılaştırılması sonucunda, Gemini’nin daha nesnel bir yaklaşım sergilediğini buldu.

Anand Kannappan, Patronus AI’nin kurucu ortağı, “Gemini’nin daha tarafsız bir değerlendirme sunduğunu gördük. Farklı giriş-çıkış çiftleri arasında daha adil bir değerlendirme sağlıyor” dedi.

Kullanım Alanları Genişliyor

Etsy, e-ticaret alanındaki öncü müşteri olarak öne çıksa da, Patronus, bu teknolojinin kapsamını çok daha geniş bir yelpazeye yayabileceğini düşünüyor. Pazarlama ekipleri, yeni tasarım bloklarına karşı açıklamalar ve başlıklar oluşturmak için bu teknolojiyi kullanabilir.

Kannappan, aynı zamanda belge işleme ile ilgilenen büyük şirketler ve hukuk firmaları için de uygulama alanları olduğunu belirtti. “Büyük işletmelerin, PDF’lerden bilgi çıkarmak ve içerikleri özetlemek için genellikle eski teknolojilerle çalışan mühendislik ekipleri olabilir” dedi.

İşletmelerin Yapması Gereken Zorunluluklar

AI kullanımının işletme süreçlerinde giderek kritik hale gelmesiyle birlikte, birçok şirket, değerlendirme araçlarını kendileri yaratmak mı yoksa satın almak mı gerektiği konusunda kararsız kalıyor. Kannappan, AI değerlendirmesini dışkaynağa aktarmanın stratejik ve ekonomik olarak mantıklı olduğunu savunuyor.

“Ekiplerle çalıştığımızda, birçok kişinin başlangıçta içlerinde bir şeyler geliştirmeye çalıştıklarını, ancak bunun ürünlerinin geliştirilmesi açısından temel bir değer taşımadığını ve zorlu bir sorun olduğunu fark ettiklerini gördük” şeklinde konuştu.

Gelecek Vizyonu: Ses Değerlendirmesi

Patronus’un bugün duyurduğu gelişme, farklı modlar arasında AI değerlendirmesi için daha geniş bir stratejinin sadece bir adımı. Şirket, yakında ses değerlendirmesine de geçmeyi planlıyor.

“Bu, çok modlu vizyonumuzun bir sonraki aşaması ve özellikle bugüne odaklanmış olmaktan heyecanlıyız. Gelecekte sesle ilgili neler yapacağımızı görmek için sabırsızlanıyoruz” diyerek söylenen bu süreç, birçok AI sisteminin giderek daha karmaşık hale gelmesiyle doğru orantılı olarak değerlendirme mekanizmalarının da gelişmesine olan ihtiyacı gözler önüne seriyor.

Pek çok işletme, görüntüleri yorumlama, belgelerden metin çıkarma ve görsel içerikler oluşturma yeteneğine sahip AI sistemleri dağıtma yarışındayken, hatalar, hayalet görüntüler ve önyargılar riski artıyor. Patronus, temelin daha iyi hale gelmesiyle birlikte, çok modlu AI sistemlerini değerlendirme zorluğunun devam edeceğine ve bunun için özel olarak tasarlanmış araçlara ihtiyaç duyulacağına inanıyor. Bu dijital jüri araçları, belki de değerlendirilen modeller kadar değerli hale gelebilir.