SON DAKİKA

Nvdia

“Metin ile Gerçek Zamanlı Görüntü Düzenleme için Hızlı Ters Çeviri Yöntemleri”

Metin ile Görüntü Arasında Bağlantı: Diffüzyon Modelleri

Metin-görüntü diffüzyon modelleri, kullanıcıdan sağlanan metin istemlerine dayanarak çeşitli ve yüksek kaliteli görüntüler üretebilirler. Bu modeller, yüksek boyutlu bir alandan rastgele bir örnek alıp, kullanıcı tarafından sağlanan metin istemi ile koşullandırarak, bir dizi gürültü azaltma adımı geçirir. Bu süreç, karşılık gelen görüntünün z_{0} temsiline ulaşır.

Görüntü Düzenlemelerine Yönelik Yeni Yaklaşımlar

Bu modeller, görüntü düzenlemesi, kişisel kavramlar öğrenimi veya anlamsal veri artırımı gibi daha karmaşık görevlerde de kullanılabilmektedir. Burada, görüntü düzenlemesi, belirli bir metin istemine dayanarak bir görüntüdeki yerel değişiklikleri yapmayı ifade ederken, diğer kısımların değişmeden kalması gerekmektedir.

Tüm bunlar, inversiyon adı verilen bir süreç aracılığıyla gerçekleştirilir: Verilen bir görüntü temsili z_{0} ve onunla ilişkili metin istemine dayanarak, z_{T} gürültü tohumunu arıyoruz; bu tohum, gürültü azaltma sürecine verildiğinde, z_{0} yeniden inşa edilmiş görüntüyü oluşturur.

Yeni Bir İnversiyon Tekniği: RNRI

Son zamanlarda önerilen Regularized Newton-Raphson Inversion (RNRI), mevcut inversiyon yöntemlerinden daha başarılıdır çünkü hızlı yakınsama ile üstün doğruluk, işlem süresi ve hafıza verimliliği arasında bir denge kurar. Bu sayede, gerçek zamanlı görüntü düzenlemesi mümkün hale gelmiştir.

İnversiyon: İkincil Denklem Çözümü Olarak

Diffüzyon modelinin inversiyonunu yapmak, olası tohumlar alanında, verilen bir görüntüyü yeniden oluşturacak bir tane bulmayı gerektirir. Bu arayış, hesaplama açısından maliyetli olabilir.

Verimliliği anlamak için öncelikle ileri (gürültü artırma) sürecine bakalım. Diffüzyon modellerinden örnekleme, ortak bir diferansiyel denklemi çözmek olarak görülebilir. Ünlü DDIM deterministik zamanlayıcısı, bir gürültü vektörünü şu şekilde denetler:

z_{t-1}=sqrt{frac{alpha_{t-1}}{alpha_{t}}}z_{t} - sqrt{alpha_{t-1}} cdot Delta psi(alpha_{t})cdot epsilon_{theta}(z_{t},t,p)

DDIM İnversiyonu ve Diğer Yöntemler

İnversiyon elde etmek için, ilk denklem şu şekilde yeniden yazılır:

z_t = sqrt{frac{alpha_t}{alpha_{t-1}}}z_{t-1} + sqrt{alpha_{t}} cdot Delta psi(alpha_t) cdot epsilon_{theta}(z_{t},t,p)

Bu, kapalı formda çözülemeyen bir içsel denklem verir. DDIM inversiyonu, çözüm yerine z_{t} yerine z_{t-1} kullanarak yaklaşımda bulunur. Ancak, bu yöntem hızlı olsa da sıklıkla hatalı sonuçlar vermektedir.

RNRI: Hızlı ve Doğru Çözüm

Daha hızlı ve doğru bir alternatif, Newton-Raphson iteratif yöntemine dayanmaktadır. Bu yöntem, denklemler sisteminin köklerini iteratif olarak bulmak için kullanılır. Ancak, doğrudan yüksek boyutlu Jacobian matrisini tersine çevirerek uygulamak, pratik değildir.

Bu nedenle, çok değişkenli bir skalar fonksiyon tanımlanır:

hat{r}(z_t) := ||z_t - f(z_t)||

Burada, bu kökleri arıyoruz. Çünkü scaler fonksiyonu olduğundan, jacobian matrisinin bir vektör olarak hızlı bir şekilde hesaplanması mümkündür.

Denklem 4’ü çözmek hızlı olabilir, ancak bu çözümün kaliteli bir yeniden inşa sağlaması garanti değildir. Ayrıca, çözümden bazı kökler diffüzyon modelinin dağılımına uymayabilir.

Bu durumu düzeltmek için, NR hedefine bir düzenleme terimi eklenir:

q(z_{t}|z_{t-1}) := mathcal{N}(z_{t};mu_t=sqrt{1-beta_{t}}z_{t-1},Sigma_t=beta_{t}I)

Diffüzyon sürecindeki her gürültü adımı, bir Gaussian dağılımı tarafından takip edildiğinden, bu dağılımı öncelik olarak dahil etmek mümkündür. Burada negatif log-olasılık, düzenleme cezası terimi olarak eklenerek hedef oluşturulmaktadır:

L(z_t) := ||z_t - f(z_t)|| - lambda log q(z_t | z_{t-1})

RNRI yöntemi, otomatik farklılaştırma motorları kullanarak hızlı bir şekilde hesaplanabilir. İşlem, önceki diffüzyon adımından z_{t-1} ile başlatılır. Bu yöntem, yaklaşık 1-2 iterasyon içinde (~0.5 saniyedek) yakınsar.

Şekil 2, COCO doğrulama seti üzerinde farklı inversiyon yöntemlerinin reconstrüksiyon kalitesi (PSNR) ile gerçekleştirdiği süreyi karşılaştırmaktadır. RNRI’nin, son yöntemlere göre PSNR veya çalışma zamanında iyileşme sağladığını gösteriyor.

Two graphs comparing the performance of different image inversion methods in terms of reconstruction quality (PSNR) and runtime. The left graph shows results for a latent diffusion model, where RNRI achieves high PSNR with significantly faster inversion-reconstruction time compared to other methods. The right graph shows results for a latent consistency model, where RNRI achieves the highest PSNR in less than 0.5 seconds, much faster than the other methods.
Şekil 2. PSNR ve çalışma süresi karşılaştırması

RNRI Sonuçlarının Değerlendirilmesi

Sonuçları değerlendirmek için, düzenleme performansı aşağıdaki metriklerle ölçülmektedir:

  • LPIPS skoru, yapının korunma derecesini ölçmektedir (daha düşük daha iyidir).
  • CLIP tabanlı skor, üretilen görüntülerin metin istemi ile ne kadar iyi eşleştiğini değerlendirir (daha yüksek daha iyidir).

Bu değerler, 100 MS-COCO görüntüsü üzerinde ortalama alınarak ölçülmüştür. Şekil 4, RNRI ile yapılan düzenlemenin üstün CLIP ve LPIPS skorları sağladığını gösterirken, gerçek görüntülerin en iyi düzenlemelerini yapmaktadır.

Two graphs evaluating different models on text prompt compliance and image structure preservation. The left graph shows that RNRI outperforms other baselines on the Latent Diffusion Model, in terms of CLIP and LPIPS scores. The right graph indicates that RNRI achieves better performance also using the Latent Consistency Model.
Şekil 4. RNRI, metin istemlerine daha iyi uyum ve yapı koruma sağlıyor

Gerçek Zamanlı Düzenleme Örnekleri

Son olarak, Şekil 5, gerçek zamanlı düzenleme sonuçlarına dair ek örnekler sunmaktadır.

Sonuç

Diffüzyon modellerindeki görüntü inversiyonu, görüntü düzenlemesi, anlamsal artırma ve nadir kavramlar üretme gibi uygulamalar için temel bir rol oynamaktadır. Mevcut yöntemler genellikle hesaplama verimliliği için inversiyon kalitesinden ödün vermektedir, bu da yüksek kaliteli sonuçlar için anlamlı kaynaklar gerektirebilmektedir.

Regularized Newton-Raphson Inversion (RNRI), hızlı yakınsama ile üstün doğruluğu, işlem süresini ve hafıza verimliliğini dengeleyerek, mevcut yaklaşımlardan daha iyi sonuçlar elde etmektedir. RNRI yöntemi, hem latent diffüzyon hem de latent tutarlılık modellerinde, gerçek zamanlı görüntü düzenlemesini mümkün kılmaktadır.

Daha fazla bilgi için, Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models başlıklı makaleyi inceleyebilirsiniz. Ayrıca, RNRI’yi kendiniz denemek de mümkün.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri