AI’ye insanlar gibi iletişim kurmayı öğretmek

01/09/2025 8:05 AM

Sadece arızalı bir araba motorunun sesini tarif etmek veya komşunuzun kedisini taklit ederek miyavlamak, ses taklidi yapmanın etkili bir yoludur. Sesleri sesimizle taklit etmek, bazen kelimelerin yetersiz kaldığı durumlarda bir kavramı aktarabilmek için faydalı olabilir.

Vokal taklit, hızlı bir çizim yaparak bir durumu iletmek gibidir; burada kalem yerine ses yolumuzu kullanarak bir sesi ifade ederiz. Bu fikir karmaşık görünebilir ama aslında hepimizin içgüdüsel olarak yaptığı bir şeydir. Denemek isterseniz, sesinizi bir ambulans sireni, bir karga ya da bir çanın sesiyle eşleştirerek başlayabilirsiniz.

MIT’nin Yenilikçi AI Sistemi

MIT Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı (CSAIL) araştırmacıları, daha önce insan vokal taklitini “duymamış” bir yapay zeka sistemi geliştirdi. Bu sistem, insan benzeri ses taklitleri üretebiliyor ve herhangi bir eğitim gerektirmiyor.

Bu başarı, araştırmacıların insan sesini taklit ve yorumlama biçimlerinden ilham alarak oluşturdukları bir sistem sayesinde mümkün oldu. İlk olarak, ses kutusundan gelen titreşimlerin boğaz, dil ve dudaklar tarafından nasıl şekillendiğini simüle eden bir insan vokal yolu modeli inşa ettiler. Ardından, bu vokal yolu modelini kontrol eden ve insanların ses iletimindeki özel bağlamlarının dikkate alındığı bir bilişsel AI algoritması geliştirdiler.

Seslerin İnsan Benzeri İmitasyonları

Bu model, çevredeki birçok sesi alarak, insan benzeri taklitlerini oluşturma yeteneğine sahip. Örneğin, yaprakların hışırtısı, yılanın hışırtısı ya da yaklaşan bir ambulans sireni gibi sesleri doğru bir şekilde taklit edebiliyor. Ayrıca model, insan vokal taklitlerinden gerçek dünya seslerini tahmin etmek için tersine de çalışabiliyor; bu, bazı bilgisayarlı görsel sistemlerin bir çizim üzerinden yüksek kaliteli görüntüler elde etmesine benziyor. Örneğin, insanın bir kedinin “miyav” sesini taklit edip etmediğini ya da onun “hışırtı” sesini doğru şekilde ayırt edebiliyor.

İleriye Dönük Potansiyeller

Gelecekte, bu model ses tasarımcıları için daha sezgisel “taklit temelli” arayüzlere yol açabilir, sanal gerçeklikte daha insana benzer AI karakterlerin yaratılmasına yardımcı olabilir ve hatta öğrencilere yeni diller öğrenme konusunda destek olabilir.

Bu araştırmanın baş yazarları, MIT CSAIL doktora öğrencileri Kartik Chandra, Karima Ma ve lisans araştırmacısı Matthew Caren, bilgisayar grafiklerinin gerçekçiliğinin genellikle görsel ifadenin nihai hedefi olmadığını belirtiyorlar. Örneğin, bir soyut resim ya da bir çocuğun pastel boyasıyla yaptığı bir çizim, bir fotoğraftan daha etkileyici ve ifade dolu olabilir.

Taklit Sanatının Geliştirilmesi

Taklit sanatının üç aşaması üzerine çalışan ekip, insan vokal taklitleriyle karşılaştırmak üzere üç aşamalı bir model geliştirmiştir. Öncelikle, gerçek dünya seslerine mümkün olan en benzerini üretmeyi hedefleyen bir temel model oluşturmuşlardır; ancak bu model, insan davranışlarını pek yansıtmıyordu.

İkinci olarak, dinleyiciye uygun, özelleştirilmiş bir “iletim” modeli tasarlamışlardır. Bu model, bir sesin dinleyici için en belirgin olan yönünü dikkate alıyor. Üçüncü aşamada, insan taklitlerini daha iyi yansıtabilmek adına modelin son bir katmanı eklenmiştir. Bu katman, seslerin üretimi için harcanan zaman ve enerjiyi hesaba katarak daha insana benzer taklitler ortaya koymaktadır.

Bu araştırma sonuçları, sanatçılara sesleri daha etkili bir şekilde aktarabilmeleri için yardımcı olmanın yanı sıra, içerik üreticilerine de daha açık ve detaylı sesler sunma potansiyeline sahiptir.