“Algı Yapay Zekası için Generatif AI Destekli Sentetik Veri Pipelinesi Oluşturma Rehberi”

Otonom makinelerin, örneğin robotlar ve otonom araçlar gibi, çalışmasını sağlayan fiziksel yapay zeka modellerinin eğitimi, büyük miktarda veriye ihtiyaç duyar. Çeşitli ve büyük veri setleri elde etmek zor, zaman alıcı ve maliyetli olabilir. Veri, genellikle gizlilik kısıtlamaları veya endişeleri nedeniyle sınırlıdır; ya da tamamen yeni kullanım senaryoları için mevcut olmayabilir. Ayrıca, mevcut verilerin potansiyel durumlar için geçerli olmaması, modelin farklı senaryolara doğru yanıt verme yeteneğini kısıtlayabilir.

Sentetik veriler, dijital ikizlerden bilgisayar simülasyonları ile üretilmektedir ve gerçek dünya verilerine alternatif sunarak geliştiricilerin fiziksel AI model eğitimine başlamak için ihtiyaç duyduğu büyük ve çeşitli veri setlerini hızlıca üretmelerini sağlar. Farklı düzen, varlık yerleşimi, konum, renk, nesne boyutu ve aydınlatma koşulları gibi birçok parametreyi değiştirerek hızlıca büyük, çeşitli veri setleri oluşturabilirsiniz. Bu veriler, bir genel modelin yaratılmasına yardımcı olmak için kullanılabilir.

Generatif AI destekli sentetik veri üretim hatları ve iş akışları oluşturmanıza yardımcı olmak için Sentetik Veri Üretimi ile İlgili Generatif AI Referans İş Akışı‘na göz atabilirsiniz.

Generatif AI ile Veri Üretim Sürecini Hızlandırma

Fiziksel doğruluk sağlamak, algı AI modellerinin simüle edilmiş dünyadan gerçek dünyaya geçişini kolaylaştırmak için hayati önem taşır. Tipik bir sentetik veri üretim (SDG) süreci, sanal bir ortamda nesnelerin titizlikle yeniden oluşturulmasıyla başlar ve daha sonra bu nesnelerin gerçek dünya karşılıklarının materyal, doku ve diğer özelliklerinin doğru bir şekilde kopyalanması gereklidir.

Başlangıçta 3D sahne oluşturulduktan sonra, geliştiriciler aydınlatma, renkler ve dokular gibi öğeleri sistematik olarak değiştirmek için alan rastgeleleştirme teknikleri kullanır. Bu rastgeleleştirme, modelin genelleme yeteneğini artırarak çeşitli etiketli görüntüler oluşturur. Süreç, istenen temel performans göstergelerine (KPI) ulaşıncaya kadar sürekli olarak tekrarlanır ve sentetik veri ile model eğitimi iyileştirilir.

Geleneksel SDG yöntemlerinin etkin olmasına rağmen, sahne oluşturma ve parametre rastgeleleştirme gibi birçok adım hâlâ manuel ve zaman alıcıdır. İşte burada, generatif AI, bu süreci önemli ölçüde hızlandırma fırsatı sunar.

Edify ve SDXML gibi gelişmiş difüzyon modelleri, metin veya görüntü açıklamalarından yüksek kaliteli görsel içerik hızlı bir şekilde üretebilir. Doğru kısıtlamalar sağlandığında, bu modeller, görsel parametreleri programatik olarak değiştirme konusunda oldukça başarılıdır; bunlar arasında düzen, nesne yerleşimi, renk şemaları, nesne boyutları ve aydınlatma koşulları yer alır; bu da manuel çabayı büyük ölçüde azaltır.

Üstelik, generatif AI, tüm 3D sahneyi değiştirmeden etkili görüntü artırımı sağlar. Basit metin tabanlı istemlerle, geliştiriciler hızlı bir şekilde yüzey pası ekleyebilir veya seçici bulanıklık efektleri uygulayabilir. Bu yaklaşım, çeşitli veri setlerinin oluşturulmasını belirgin şekilde hızlandırır.

Örneğin, Şekil 1, temel bir görüntünün dört farklı şekilde basit metin istemleri kullanılarak nasıl artırıldığını göstermektedir. Geleneksel olarak, bir teknik sanatçının bu tür değişiklikleri uygulayıp yeni görseller üretmesi birkaç saat alırken, generatif AI bu işi çok kısa bir sürede tamamlayarak verimliliği ve veri setinin çeşitliliğini artırır.

Four synthetically generated images, each with a different floor and different color of forklift (green, blue, yellow, white). — *Şekil 1. Farklı zemin ve forklift renklerini gösteren sentetik olarak üretilmiş görüntüler*

Referans İş Akışı Genel Bakış

Bu referans iş akışı, robotlarda bilgisayarla görme modelleri eğiten geliştiriciler için uygundur, ayrıca akıllı alanlar için bilgisayarla görme uygulamaları da içermektedir. Aşağıdaki bölüm, referans iş akışının ana adımlarını ve temel teknolojilerini açıklar.

A reference architecture for training robot foundation models with Isaac Sim from scene generation to 3D domain randomization to simulation, to 2D domain randomization and training. — *Şekil 2. NVIDIA Isaac Sim ile robot temel modellerinin eğitimi için uçtan uca referans iş akışı*

Sahne oluşturma: Geniş bir 3D depo sahnesi, raflar, kutular ve paletler gibi temel varlıkları içerecek şekilde hazırlanır. Bu temel ortam, 3D NIM mikro hizmetleri kullanılarak dinamik olarak zenginleştirilebilir; bu, çeşitli nesnelerin eklenmesini ve 360° HDRI arka planlarının entegrasyonunu kolaylaştırır.
Alan rastgeleleştirme: Geliştiriciler, sahne parametrelerini programatik olarak değiştirmeyi basit hale getiren anahtar bir dil modeli olan USD Code NIM’den faydalanabilirler. Bu güçlü araç, yalnızca OpenUSD ile ilgili soruları yanıtlamakla kalmaz, aynı zamanda sahnedeki değişiklikler için USD Python kodu üretir.
Veri üretimi: Üçüncü aşamada, başlangıçta üretilen etiketli görüntü seti dışa aktarılır. Replicator, 2D sınırlayıcı kutular, anlamsal segmentasyon, derinlik haritaları, yüzey normaleri gibi birçok yerleşik etiketleyici sunar. Çıkış formatı, belirli model gereksinimlerine veya kullanım durumuna bağlıdır.
Veri artırımı: Son aşamada, geliştiriciler SDXL ve Edify gibi generatif AI modellerini ComfyUI ile birlikte kullanarak veri artırımı gerçekleştirebilirler; bu, difüzyon modeli hatlarını oluşturmayı ve çalıştırmayı kolaylaştıran açık kaynaklı bir platformdur.

Bu iş akışında yer alan bazı temel teknolojiler şunlardır:

Edify 360 NIM: Yüksek Dinamik Aralık Görüntüsü (HDRI) üretimi için Generatif 3D hizmetinin erken erişim önizlemesi. NVIDIA Edify kullanılarak Shutterstock’un lisanslı yaratıcı kütüphaneleri ile eğitilmiştir.
Edify 3D NIM: Shutterstock Generatif 3D hizmeti, sahne giydirmede ek 3D nesneler için kullanılır ve yine NVIDIA Edify kullanılarak eğitilmiştir.
USD Code : OpenUSD bilgi sorgularını yanıtlayan ve USD Python kodu üreten bir dil modelidir.
USD Search: Metin veya görüntü tabanlı girdileri kullanarak OpenUSD verileri, 3D modeller, resimler ve varlıklar için kullanılan AI destekli arama motoru.
Görüntü üretim modelleri ve ComfyUI: Metin isteminden tek bir ağ değerlendirmesi ile fotoğraf gerçekçi görüntüler sentezleyebilme yeteneğine sahip hızlı generatif metin-görüntü modelleri.
Omniverse Replicator: Özel SDG hatları ve hizmetleri geliştirmek için bir çerçevedir ve NVIDIA Isaac Sim ile entegrasyon sağlar.

Bu iş akışı kılavuzunu kullanarak, tespit, sınıflandırma ve segmentasyon dahil olmak üzere çeşitli algı AI modelleri eğitmek için özelleştirilmiş SDG hattınızı geliştirebilirsiniz. Bu referans iş akışını uygulayarak siz veya müşteriniz {{strong}}şunlara ulaşabilirsiniz{{/strong}}:

Hızlandırılmış AI model eğitimi: Veri açığını aşın ve AI model geliştirme sürecini hızlandırırken, metin, görsel ve fiziksel AI modellerini eğitmek için gereken veri edinim ve etiketleme maliyetlerini azaltın.
Gizlilik ve güvenlik: Gizlilik sorunlarını çözün ve çeşitli sentetik veri setleri oluşturarak yanlılığı azaltın.
Artırılmış model doğruluğu: Nadir ama kritik köşe vakalarını içeren çeşitli verilerle eğiterek son derece doğru ve genelleştirilmiş AI modelleri oluşturun.
Ölçeklenebilirlik: Kullanım durumu boyunca, otomatik bir hat ile verileri prosedürel olarak üretme.

Adım adım başlamaya hazır mısınız? Sentetik Veri Üretimi ile İlgili Generatif AI Referans İş Akışına gidin.

Gelişmelerden haberdar kalmak için bültenimize abone olun ve NVIDIA Robotics’i YouTube, Discord ve NVIDIA Geliştirici forumları ile takip edin.