“2D ve 3D Dijital İnsan Avatarları ile AI Ajanı Arayüz Seçeneklerini Genişletme”

Generatif yapay zeka uygulamaları ile etkileşimde bulunan kullanıcıların metin, ses ya da dijital avatarlar aracılığıyla çeşitli iletişim seçenekleri bulunmaktadır.

Geleneksel sohbet botları veya yardımcı uygulamalar, kullanıcıların sorguları yazdığı ve metin tabanlı yanıtlar aldığı metin arayüzleri kullanır. Sesli iletişim için otomatik konuşma tanıma (ASR) ve metinden konuşmaya (TTS) yönelik teknolojiler, telefon tabanlı müşteri hizmetleri gibi senaryolar için idealdir. Ayrıca, dijital avatarların ses yetenekleriyle birleştirilmesi, kullanıcıların uygulama ile görsel olarak daha dinamik bir iletişim kurmasını sağlar. Gartner’a göre, 2028 yılına kadar, 500’den fazla çalışanı olan organizasyonların %45’i, insan kaynaklarının kapasitesini artırmak için yapay zeka avatarlarından faydalanacaktır.1

Dijital avatarlar, stil açısından oldukça çeşitlidir. Bazı kullanım durumları, fotorealistik 3D veya 2D avatarlarla fayda sağlarken, diğer kullanım durumları daha stilize veya çizgi film tarzı avatarlarla daha iyi sonuçlar elde eder.

Dijital Avatar Türleri

3D Avatarlar, gerçekçi hareketler ve fotorealizm sunarak tam anlamıyla sürükleyici deneyimler sağlar. Bu avatarların geliştirilmesi, karmaşık beden animasyonları ve yüksek kaliteli renderlemeler gerektirdiği için özel yazılım ve teknik uzmanlık gerektirir.

2D Avatarlar ise daha hızlı geliştirilir ve web tabanlı çözümler için idealdir. Etkileşimli yapay zekanın yaratımına yönelik daha akıcı bir yaklaşım sunar; genellikle tasarım ve animasyon için sanatçılara ihtiyaç duysa da, teknik kaynaklar açısından daha az yoğunluktadır.

Dijital İnsan Oluşturma Süreci

Fotorealistik bir dijital insan yaratmaya başlamak için, NVIDIA’nın müşteri hizmetleri için dijital insanlar üzerine olan AI Blueprint‘ini kullanabilirsiniz. Bu işlevsellik, NVIDIA Maxine Audio2Face-2D NIM mikroservisi ile desteklenmektedir. Ayrıca, blueprint, 3D avatar geliştiricilerinin Unreal Engine kullanmasını sağlayacak esneklik sunar.

AI Blueprint içerisinde, bir kullanıcı, NVIDIA ACE teknolojisini kullanarak bir AI ajanı ile etkileşimde bulunur. Kullanıcının sesli girişi, ACE ajanına iletilir ve bu ajan, çeşitli NIM mikroservisleri arasında iletişimi yönetir. ACE ajanı, sesi metne dönüştürmek için Riva Parakeet NIM‘yi kullanarak veriyi işler. Sonrasında, RAG ile ilgili mikroservisler olan NVIDIA NeMo Retriever embedding ve yeniden sıralama fonksiyonları ve bir LLM NIM kullanılarak ilgili belgelerden cevap oluşturulur.

Yüz Yüze Kullanım Kolaylığı

Sonuç, Riva TTS ile konuşmaya dönüştürülür ve dijital insan, Audio2Face-3D NIM veya Audio2Face-2D NIM kullanılarak animasyonlandırılır.

Küresel işletmelerde, diller arasındaki iletişim engelleri operasyonları yavaşlatabilir. Çok dilli yeteneklere sahip yapay zeka destekli avatarlar, diller arası iletişimi kolaylaştırır. Dijital insan AI Blueprint, Riva ASR, sinirsel makine çevirisi (NMT) ve akıllı kesme ve bölünme desteği ile kullanıcıların konuşma tarzlarını ve dillerini simüle eden konuşma yapay zeka yetenekleri sunar.

Dijital insan AI ajanlarının bir diğer önemli avantajı, müşterilere ve çalışanlara her zaman ulaşılabilir kaynaklar olarak işlev görmeleridir. RAG destekli AI ajanları, etkileşimlerden sürekli öğrenir ve zamanla daha doğru yanıtlar ve daha iyi kullanıcı deneyimleri sunar.

Şirketlerin dijital insan arayüzlerini değerlendirirken, doğru avatar ve renderleme seçeneğini seçmek kullanım durumu ve özelleştirme tercihleri ile ilişkilidir.

  • Kullanım Durumu: 3D avatarlar, fiziksel mağazalarda, kiosklar gibi son derece sürükleyici kullanım durumları için idealken, 2D avatarlar web veya mobil konuşma yapay zeka kullanım durumları için etkilidir.
  • Geliştirme ve Özelleştirme Tercihleri: 3D ve animasyon alanında yetkin ekipler, sürükleyici ve ultra gerçekçi avatar yaratmak için becerilerini kullanabilirken, hızlı bir şekilde tekrar etmek ve özelleştirmek isteyen ekipler 2D avatarların sadeliğinden yararlanabilir.
  • Ölçeklendirme Kriterleri: Avatarları ve ona bağlı renderleme seçeneklerini değerlendirirken ölçeklendirme önemli bir kriterdir. Özellikle 3D avatarlar için akış hızı, kullanılan karakter varlığının kalitesi, istenilen çıkış çözünürlüğü ve tercih edilen renderleme seçeneği (Omniverse Renderer veya Unreal Engine) her akış için hesaplama yükünü belirlemede kritik bir rol oynar.

NVIDIA Audio2Face-2D, yalnızca bir portre resmi ve ses girişi ile gerçekçi 2D avatarların oluşturulmasını sağlar. Kolay ve basit yapılandırmalar, geliştiricilerin hedef avatarlar ve animasyonlar üretmek için hızlı bir şekilde yinelemeler yapmalarına olanak tanır. Gerçek zamanlı çıktı ve bulut tabanlı dağıtım ile 2D dijital insanlar, etkileşimli kullanım durumları ve etkileşimli web-embedded çözümler için ideal çözüm sunar.

Örneğin, AI ajanlarını birden çok cihazda dağıtmak ve dijital insanları web veya mobil öncelikli müşteri yolculuklarına entegre etmek isteyen işletmeler, 2D avatarların azaltılmış donanım gereksinimlerinden faydalanabilirler.

3D fotorealistik avatarlar, yüksek empati gerektiren kullanıcı etkileşimi için benzersiz bir deneyim sunar. NVIDIA Audio2Face-3D ve Animasyon NIM mikroservisleri, 3D bir karakteri, karışım şekilleri oluşturarak ve ince baş ve beden animasyonları üreterek canlandırır. Dijital insan AI Blueprint artık 3D avatarlar için iki renderleme seçeneğini desteklemektedir: Omniverse Renderer ve Unreal Engine Renderer, geliştiricilere tercih ettikleri renderleme seçeneğini entegre etme esnekliği sağlamaktadır.

Dijital Avatarlar ile Başlamak

Dijital insan arayüzlerini chatbot uygulamalarını kişiselleştirmek için eklemek isterseniz, Audio2Face-2D ve Unreal Engine NIM mikroservisleri ile uygulamalı geliştirme yapmak için ACE Early Access’a başvurabilir veya dijital insan AI Blueprint teknik blogunu inceleyerek daha fazla bilgi edinebilirsiniz.

1Gartner®, Hype Cycle for the Future of Work, 2024 tarafından Tori Paulman, Emily Rose McRae, vb., Temmuz 2024
GARTNER, Gartner, Inc. ve/veya bağlı kuruluşları tarafından ABD’de ve uluslararası alanda tescillenmiş bir ticari markadır ve burada izinle kullanılmaktadır. Tüm hakları saklıdır.

Kaynak

Nvdia Blog

Exit mobile version