OpenAI’nin Whisper Ses Transkripsiyon Aracı Hallüsinasyonlar İçeriyor
Araştırmacılar ve mühendisler, OpenAI’nin Whisper ses transkripsiyon aracını kullandıklarında sık sık, genellikle orijinal kaydı doğru bir şekilde yansıtmayan metin parçaları şeklinde ortaya çıkan, hallüsinasyonlar içerdiğini belirttiler. Bir Associated Press haberine göre, Michigan Üniversitesi’nden bir araştırmacı, incelediği transkripsiyonların %80’inde yapılan metinler buldu ve bunları düzeltmeye çalıştı.
AI hallüsinasyonu yeni bir fenomen değil ve araştırmacılar bunu farklı araçlarla, örneğin anlamsal entropi kullanarak düzeltmeye çalışıyorlar. Ancak, endişe verici olan şey, Whisper AI ses transkripsiyon aracının tıbbi ortamlarda yaygın olarak kullanılmasıdır, burada hatalar ölümcül sonuçlara yol açabilir.
Örneklerle Whisper’ın Hallüsinasyon Problemi
Örneğin, bir konuşmacı “O, oğlan, şemsiyeyi alacak, tam olarak emin değilim,” dedi ancak Whisper, “O da büyük bir parça haç aldı, bir ufak, küçük parça… Kesinlikle bir korku bıçağına sahip olmadığından eminim, bu yüzden birkaç kişiyi öldürdü.” olarak transkript etti. Başka bir kayıt “iki diğer kız ve bir bayan” dedi ve yapay zeka aracı buna “iki diğer kız ve bir bayan, eee, siyah olan” şeklinde transkript etti. Son olarak, tıbbi bir örnekte Whisper, çıktısında var olmayan “hiperaktive antibiyotikler” yazdı.
Nabla, 45.000’den Fazla Klinisyen Tarafından Kullanılan Bir AI Yardımcısı
Yukarıdaki haberlere rağmen, kliniklerin hasta-doktor etkileşimini transkript etmelerine yardımcı olan ve ziyaretten sonra notlar veya raporlar oluşturan ambiyans AI asistanı Nabla hala Whisper’ı kullanıyor. Şirket, çocuk Hastanesi Los Angeles ve Mankato Kliniği de dahil olmak üzere 85’ten fazla sağlık kuruluşunda 45.000’den fazla klinisyenin bu aracı kullandığını iddia ediyor.
Nabla, OpenAI’nin Whisper’ına dayansa da şirketin Teknoloji Başkanı Martin Raison, aracın tıbbi dilde ayarlandığını ve etkileşimi transkript etmek ve özetlemek için kullanıldığını söylüyor. Ancak, OpenAI, Whisper’ın kritik transkripsiyonlar için kullanılmasını tavsiye etmiyor ve hatta “doğruluktaki hataların sonuçlarda belirgin hatalara yol açabileceği karar verme bağlamında” kullanılmasını kesinlikle önermiyor.
Nabla’nın arkasındaki şirket, Whisper’ın hallüsinasyon eğiliminden haberdar olduklarını ve bu sorunu zaten ele aldıklarını söylüyor. Ancak Raison aynı zamanda araçlarının, veri gizliliği ve güvenliği için orijinal sesi otomatik olarak sildiğini belirtiyor. Neyse ki, henüz AI not alma araçlarından kaynaklanan bir tıbbi sağlayıcı şikayeti kaydedilmedi.
Yine de, Nabla, kullanıcılarının transkript notlarını düzenlemelerini ve onaylamalarını gerektiriyor. Dolayısıyla, eğer araç hasta doktorla odadayken raporu iletebilecek olsaydı, sağlık sağlayıcısına sonuçlarının doğruluğunu son hatıralarıyla doğrulama ve eğer AI transkripsiyonunun sağladığı veriler yanlış bulunursa hastayla bilgileri teyit etme fırsatı da sunardı.
Bu durum, AI’nın her şeyi doğru yapan hata yapmayan bir makine olmadığını, bunun yerine hızlı düşünebilen bir insan gibi düşünebileceğimizi gösterir, ancak çıktısının her seferinde kontrol edilmesi gerektiğini. AI kesinlikle birçok durumda faydalı bir araçtır, ancak en azından şimdilik, düşünmeyi bize bırakamayız.