Amazon’un SWE-PolyBench’i AI Kod Asistanının Gizli Gerçeğini Açıkladı

Günlük ve haftalık bültenlerimize katılarak, sektör lideri yapay zeka haberleri hakkında en son güncellemeleri ve özel içerikleri edinin. Daha fazla bilgi edinin

Amazon Web Services, bugün AI kodlama asistanlarını farklı programlama dilleri ve gerçek dünya senaryolarında değerlendirmek için tasarlanmış kapsamlı bir çok dilli benchmark olan SWE-PolyBench‘i tanıttı. Bu benchmark, mevcut değerlendirme çerçevelerindeki önemli sınırlamaları ele alıyor ve araştırmacılara ile geliştiricilere karmaşık kod tabanlarını nasıl daha etkili bir şekilde yönetebileceklerini değerlendirme konusunda yeni yöntemler sunuyor.

Amazon’un Uygulamalı Bilimler Direktörü Anoop Deoras, VentureBeat ile yaptığı röportajda, “Artık kodlama ajanslarının karmaşık programlama görevlerini çözme yeteneklerini değerlendirebilecekleri bir benchmark’a sahipler,” dedi. “Gerçek dünya, daha karmaşık görevler sunar. Bir hatayı düzeltmek veya bir özellik inşa etmek için, yalnızca tek bir dosyayı değil, birden fazla dosyayı düzenlemeniz gerekir.”

SWE-PolyBench’in Özellikleri

SWE-PolyBench, dört programlama dilinden (Java, JavaScript, TypeScript ve Python) gerçek GitHub sorunlarından türetilmiş 2,000’in üzerinde özel kodlama zorluğu sunuyor. Benchmark ayrıca, daha hızlı deneyler yapmak için tasarlanmış 500 sorunluk bir alt küme (SWE-PolyBench500) içeriyor. Bu yenilik, mevcut benchmark’ların sınırlamalarını ciddi şekilde ele alıyor.

Deoras, mevcut benchmark’lar hakkında, “Kodlama görevlerinin çeşitliliği ve programlama dillerinin çeşitliliği eksikti,” dedi. “SWE-Bench’te yalnızca tek bir programlama dili, Python ve tek bir görev, hata düzeltmeleri var. PolyBench’de, SWE-Bench’ten farklı olarak, bu benchmark’ı üç ek dille genişlettik.”

Değerlendirme Metotlarındaki Yenilikler

Ana yeniliklerinden biri, SWE-PolyBench’in “geçme oranı” gibi basit ölçümlerin ötesinde daha geliştirilmiş değerlendirme metrikleri sunmasıdır. Geçme oranı, bir kod patch’inin görüntülenen bir hatayı başarıyla çözmek için ne kadar etkin olduğunu ölçer. Deoras, “Geçme oranı yalnızca, ajansların ürettiği patch’lerin uygulandığında ne kadarının başarılı bir şekilde çalıştığını gösteriyor. Ancak bu, fazla genel bir istatistik,” diyerek bu metotların yetersizliklerine dikkat çekti.

SWE-PolyBench’in daha **sofistike** metrikleri, dosya düzeyinde konumlandırma ve Concrete Syntax Tree (CST) düğüm düzeyinde geri alma gibi yöntemleri içeriyor. Bu, bir ajansın bir kod deposunda hangi dosyaların değiştirilmesi gerektiğini belirlemedeki yeteneğini değerlendirir.

Kurumsal Geliştiriciler İçin Faydaları

SWE-PolyBench, AI kod yardımcılarının geliştirilmesinde kritik bir dönüm noktasına geliyor. Bu araçlar, deneysel aşamalardan üretim ortamlarına geçerken, sağlam, çeşitli ve temsil edici benchmark’lara olan ihtiyaç güçleniyor.

SWE-PolyBench, kurumsal araçların çok dilli geliştirme ortamında daha değerli hale gelmesini sağlıyor. Java, JavaScript, TypeScript ve Python, kurumsal ayarlarda en popüler programlama dillerinden bazılarıdır ve SWE-PolyBench’in desteği, gerçek dünya geliştirme senaryolarına çok uygun bir kapsam sunmaktadır.

Amazon, **SWE-PolyBench** çerçevesini tamamen halka açık hale getirmiştir. Veriler Hugging Face üzerinde erişilebilir ve değerlendirme aracı GitHub‘ta bulunmaktadır. Üstelik, çeşitli kodlama ajanslarının başarılarını izlemek için özel bir liderlik tablosu oluşturulmuştur.