SON DAKİKA

Nvdia

NVIDIA TAO 5.5 ile Yeni Temel Modeller ve Eğitim Yetkinlikleri

NVIDIA TAO 5.5 ile Yapay Zeka Modellerinizi Hızla Geliştirin

NVIDIA TAO, yapay zeka model geliştirme ve dağıtım süreçlerini basitleştirmek ve hızlandırmak için tasarlanmış bir çatıdır. Bu çatı, önceden eğitilmiş modeller kullanmanıza, kendi verilerinizle ince ayar yapmanıza ve modelleri belirli kullanımlara optimize etmenize olanak tanır; üstelik derin AI uzmanlığına sahip olmanızı gerektirmez.

TAO, NVIDIA donanım ve yazılım ekosistemi ile sorunsuz bir şekilde entegrasyon sağlar. Model eğitiminden dağıtım ve çıkarıma kadar verimli AI model geliştirme araçları sunarak, AI tabanlı uygulamaların pazara sunulma süresini hızlandırır.

Flowchart shows the integration of models from the NGC Model Catalog and ONNX Model Zoo into TAO, which includes components like AutoML, Training & Optimization, AI-assisted annotation, and Augmentation. They are connected through an API gateway, which interfaces with training data and REST APIs.
Şekil 1. NVIDIA TAO mimarisi

Şekil 1, TAO’nun PyTorch, TensorFlow ve ONNX gibi çerçeveleri desteklediğini göstermektedir. Eğitim, birden fazla platformda yapılabilir ve elde edilen modeller GPU, CPU, MCU gibi çeşitli çıkarım platformlarında dağıtılabilir.

TAO 5.5 ile Gelen Yenilikler

NVIDIA, en son TAO 5.5’i piyasaya sürdü ve bu sürüm, yapay zeka model geliştirebilmek için döngüsel bir gelişim sunmaktadır. Yeni özellikler arasında:

  • Çok Modlu Sensör Füzyon Modelleri: Çok sayıda sensörden gelen verileri, geometrik ve anlamsal bilgileri koruyarak birleşik bir kuş bakışı (BEV) temsilinde entegre etme.
  • Metin İfadeleri ile Otomatik Etiketleme: Metin ifadeleri kullanarak nesne algılama ve segmentasyon için etiket veri setlerini otomatik olarak oluşturma.
  • Açık Kelime Dağılımlı Algılama: Belirlenmiş etiketler yerine, doğal dil tanımlamaları kullanarak herhangi bir kategoriden nesneleri tanıma.
  • Bilgi Damıtma: Daha büyük ağların bilgi birikiminden daha küçük, daha etkili, daha doğru ağlar oluşturma.

Yeni Temel ve Çok Modlu Modeller

NVIDIA TAO, açık kaynaklı, temel ve özel modeller ile eğitilir ve bu modeller geniş çapta eğitim verileri kullanmaktan kaynaklanan çok yönlülük sağlar. Bu da nesne algılama, poz algılama, görüntü sınıflandırması ve segmentasyon gibi görevlerde esneklik sunar. TAO, bu modellerin belirli kullanımlara uygun bir şekilde ince ayarını yapmayı ve ticari olarak dağıtmayı oldukça kolaylaştırır.

Çoğu model, NVIDIA TensorRT ile hızlandırılmakta ve NVIDIA donanımında performansa optimize edilmektedir. TAO’da model sırt sırta geçirmek basit bir yapılandırma değişikliği ile mümkündür; bu sayede, ResNet, Swin Transformeri ve Fully Attentional Network (FAN) gibi farklı mimarilerle deneme yapma olanağı sunmaktadır.

Uygulama Alanları

Bu özelleştirme kolaylığı, perakende sektöründe ürün tanımlama, sağlık hizmetlerinde tıbbi görüntü sınıflandırma, imalat sektöründe robotik montaj izleme ve akıllı şehirlerde trafik yönetimi gibi çeşitli uygulama alanlarını desteklemektedir.

Öne Çıkan Modeller

GroundingDINO Modeli

GroundingDINO, nesne algılama uygulamalarında sınıflandırmalar yapmak için insan girdilerini kullanan bir modeldir.

Geleneksel nesne algılama modellerinin tanımlı kategorilerle sınırlı olması, belirli nesneleri tanımak için büyük bir engel teşkil etmektedir. GroundingDINO, bir metin kodlayıcı ekleyerek bu sınırlamayı aşar ve açık bir nesne algılayıcıya dönüştürüldü. Bu sayede, model insan girdileriyle tarif edilen her nesneyi algılayabilmektedir.

Diagram shows input as an image and a prompt or list of objects. The image is processed through an image backbone such as Swin and text is processed through a text backbone such as BERT. A feature enhancer is added to align both image and text-based features. Image and text features then go to a query selection and a cross-modality decoder. The decoded features then go to Mask features and eventually go to Mask FCN where it gets combined with object query followed by convolutions and controller. Eventually, it outputs the mask and bbox for the object being requested in the input query.
Şekil 2. Mask-GroundingDINO model mimarisi

BEVFusion Modeli

BEVFusion, farklı sensörlerin veri setlerini birleştirerek çok modlu bir rapor oluşturur. Bu işlem, her sensör tipinin benzersiz bilgilerini, aynı zamanda geometrik ve anlamsal bağlamı koruyarak bir araya getirir.

TAO içindeki BEVFusion modeli, kamera görüntülerini ve LiDAR verilerini kullanarak 3D sınır kutuları oluşturma yeteneğine sahiptir ve bu, otonom sürüş, robotik ve akıllı şehir çözümlerinde büyük bir yenilik sunar.

SEGIC Modeli

SEGIC, bağlam içi segmentasyon konusunda devrim yaratan bir framework’tür. Sunmuş olduğu çözüm, hedef görüntüler ile bağlam örnekleri arasında yoğun ilişkiler kurarak detaylı maske tahminleri gerçekleştirmeye olanak tanır. Böylece, etiketleme ve training yükleri önemli ölçüde azaltılmış olur.

SEGIC, özellikle video nesne segmentasyonu ve açık kelime dağılımlı segmentasyon gibi çeşitli görevlerde etkili bir çözüm sunmaktadır.

Telif Hakkı İşlemleri ve Eğitimin Kolaylığı

TAO ile kullanıcılar, eğitim verilerini hızlı ve kolay bir şekilde oluşturabilir ve özelleştirebilir. Kullanılan tüm ham görseller, ticari kullanım için lisansa sahip olup, böylece güvenli bir şekilde ticari alanlarda değerlendirilebilir.

Ayrıca, model performansını değerlendirmek için TAO’nun sağladığı değerlendirme, çıkarım ve ihracat araçları bulunur. Kullanıcılar, böylece eğitim sürecinin her aşamasında destek alabilirler.

Sonuç ve Kaynaklar

Dünya genelindeki geliştiriciler, NVIDIA TAO’yu görsel yapay zeka uygulamaları için AI eğitimini hızlandırmak amacıyla kullanmaktadır. TAO 5.5’in yeni özelliklerinden faydalanarak AI uygulamalarınızı geliştirebilirsiniz.

Daha fazla bilgi için aşağıdaki kaynakları ziyaret edebilirsiniz:

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri