“Metin ile Gerçek Zamanlı Görüntü Düzenleme için Hızlı Ters Çeviri Yöntemleri”

Metin ile Görüntü Arasında Bağlantı: Diffüzyon Modelleri

Metin-görüntü diffüzyon modelleri, kullanıcıdan sağlanan metin istemlerine dayanarak çeşitli ve yüksek kaliteli görüntüler üretebilirler. Bu modeller, yüksek boyutlu bir alandan rastgele bir örnek alıp, kullanıcı tarafından sağlanan metin istemi ile koşullandırarak, bir dizi gürültü azaltma adımı geçirir. Bu süreç, karşılık gelen görüntünün temsiline ulaşır.

Görüntü Düzenlemelerine Yönelik Yeni Yaklaşımlar

Bu modeller, görüntü düzenlemesi, kişisel kavramlar öğrenimi veya anlamsal veri artırımı gibi daha karmaşık görevlerde de kullanılabilmektedir. Burada, görüntü düzenlemesi, belirli bir metin istemine dayanarak bir görüntüdeki yerel değişiklikleri yapmayı ifade ederken, diğer kısımların değişmeden kalması gerekmektedir.

Tüm bunlar, inversiyon adı verilen bir süreç aracılığıyla gerçekleştirilir: Verilen bir görüntü temsili ve onunla ilişkili metin istemine dayanarak, gürültü tohumunu arıyoruz; bu tohum, gürültü azaltma sürecine verildiğinde, yeniden inşa edilmiş görüntüyü oluşturur.

Yeni Bir İnversiyon Tekniği: RNRI

Son zamanlarda önerilen Regularized Newton-Raphson Inversion (RNRI), mevcut inversiyon yöntemlerinden daha başarılıdır çünkü hızlı yakınsama ile üstün doğruluk, işlem süresi ve hafıza verimliliği arasında bir denge kurar. Bu sayede, gerçek zamanlı görüntü düzenlemesi mümkün hale gelmiştir.

İnversiyon: İkincil Denklem Çözümü Olarak

Diffüzyon modelinin inversiyonunu yapmak, olası tohumlar alanında, verilen bir görüntüyü yeniden oluşturacak bir tane bulmayı gerektirir. Bu arayış, hesaplama açısından maliyetli olabilir.

Verimliliği anlamak için öncelikle ileri (gürültü artırma) sürecine bakalım. Diffüzyon modellerinden örnekleme, ortak bir diferansiyel denklemi çözmek olarak görülebilir. Ünlü DDIM deterministik zamanlayıcısı, bir gürültü vektörünü şu şekilde denetler:

DDIM İnversiyonu ve Diğer Yöntemler

İnversiyon elde etmek için, ilk denklem şu şekilde yeniden yazılır:

Bu, kapalı formda çözülemeyen bir içsel denklem verir. DDIM inversiyonu, çözüm yerine yerine kullanarak yaklaşımda bulunur. Ancak, bu yöntem hızlı olsa da sıklıkla hatalı sonuçlar vermektedir.

RNRI: Hızlı ve Doğru Çözüm

Daha hızlı ve doğru bir alternatif, Newton-Raphson iteratif yöntemine dayanmaktadır. Bu yöntem, denklemler sisteminin köklerini iteratif olarak bulmak için kullanılır. Ancak, doğrudan yüksek boyutlu Jacobian matrisini tersine çevirerek uygulamak, pratik değildir.

Bu nedenle, çok değişkenli bir skalar fonksiyon tanımlanır:

Burada, bu kökleri arıyoruz. Çünkü scaler fonksiyonu olduğundan, jacobian matrisinin bir vektör olarak hızlı bir şekilde hesaplanması mümkündür.

Denklem 4’ü çözmek hızlı olabilir, ancak bu çözümün kaliteli bir yeniden inşa sağlaması garanti değildir. Ayrıca, çözümden bazı kökler diffüzyon modelinin dağılımına uymayabilir.

Bu durumu düzeltmek için, NR hedefine bir düzenleme terimi eklenir:

Diffüzyon sürecindeki her gürültü adımı, bir Gaussian dağılımı tarafından takip edildiğinden, bu dağılımı öncelik olarak dahil etmek mümkündür. Burada negatif log-olasılık, düzenleme cezası terimi olarak eklenerek hedef oluşturulmaktadır:

RNRI yöntemi, otomatik farklılaştırma motorları kullanarak hızlı bir şekilde hesaplanabilir. İşlem, önceki diffüzyon adımından ile başlatılır. Bu yöntem, yaklaşık 1-2 iterasyon içinde (~0.5 saniyedek) yakınsar.

Şekil 2, COCO doğrulama seti üzerinde farklı inversiyon yöntemlerinin reconstrüksiyon kalitesi (PSNR) ile gerçekleştirdiği süreyi karşılaştırmaktadır. RNRI’nin, son yöntemlere göre PSNR veya çalışma zamanında iyileşme sağladığını gösteriyor.

Şekil 2. PSNR ve çalışma süresi karşılaştırması

RNRI Sonuçlarının Değerlendirilmesi

Sonuçları değerlendirmek için, düzenleme performansı aşağıdaki metriklerle ölçülmektedir:

  • LPIPS skoru, yapının korunma derecesini ölçmektedir (daha düşük daha iyidir).
  • CLIP tabanlı skor, üretilen görüntülerin metin istemi ile ne kadar iyi eşleştiğini değerlendirir (daha yüksek daha iyidir).

Bu değerler, 100 MS-COCO görüntüsü üzerinde ortalama alınarak ölçülmüştür. Şekil 4, RNRI ile yapılan düzenlemenin üstün CLIP ve LPIPS skorları sağladığını gösterirken, gerçek görüntülerin en iyi düzenlemelerini yapmaktadır.

Şekil 4. RNRI, metin istemlerine daha iyi uyum ve yapı koruma sağlıyor

Gerçek Zamanlı Düzenleme Örnekleri

Son olarak, Şekil 5, gerçek zamanlı düzenleme sonuçlarına dair ek örnekler sunmaktadır.

Sonuç

Diffüzyon modellerindeki görüntü inversiyonu, görüntü düzenlemesi, anlamsal artırma ve nadir kavramlar üretme gibi uygulamalar için temel bir rol oynamaktadır. Mevcut yöntemler genellikle hesaplama verimliliği için inversiyon kalitesinden ödün vermektedir, bu da yüksek kaliteli sonuçlar için anlamlı kaynaklar gerektirebilmektedir.

Regularized Newton-Raphson Inversion (RNRI), hızlı yakınsama ile üstün doğruluğu, işlem süresini ve hafıza verimliliğini dengeleyerek, mevcut yaklaşımlardan daha iyi sonuçlar elde etmektedir. RNRI yöntemi, hem latent diffüzyon hem de latent tutarlılık modellerinde, gerçek zamanlı görüntü düzenlemesini mümkün kılmaktadır.

Daha fazla bilgi için, Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models başlıklı makaleyi inceleyebilirsiniz. Ayrıca, RNRI’yi kendiniz denemek de mümkün.

Kaynak

Nvdia Blog

Exit mobile version