SON DAKİKA

Nvdia

“NVIDIA Blackwell ile OpenAI Triton’un AI Performansını ve Programlanabilirliğini Artırması”

Matris çarpımı ve dikkat mekanizmaları, modern yapay zeka iş yüklerinin hesaplama temeli olarak büyük önem taşımaktadır. NVIDIA cuDNN gibi kütüphaneler, son derece optimize edilmiş uygulamalar sunarken, CUTLASS gibi çerçeveler derin özelleştirme imkânları sağlar. Ancak, birçok geliştirici ve araştırmacı, performans ile programlanabilirlik arasında bir denge aramaktadır.

Açık kaynak Triton derleyicisi, NVIDIA Blackwell mimarisi ile bu ihtiyacı karşılamak için, Blackwell’ın gelişmiş özelliklerini sezgisel bir programlama modeli ile sunmaktadır.

NVIDIA’nın OpenAI ile devam eden işbirliği sayesinde Triton derleyicisi artık NVIDIA Blackwell mimarisini desteklemekte. Bu durum, geliştiricilere ve araştırmacılara Blackwell mimarisinin en son ve gelişmiş özelliklerini rahatlıkla Python tabanlı bir derleyici üzerinden kullanma olanağı tanımaktadır.

NVIDIA Blackwell’da Performans Gelişmeleri

NVIDIA Blackwell mimarisi, hem brüt hesaplama gücü hem de mimari yenilikler açısından büyük iyileştirmeler sunmaktadır. NVIDIA ve OpenAI işbirliği, bu yeteneklerin Triton’un derleyici altyapısı aracılığıyla etkili bir biçimde kullanılmasını sağlamaya odaklanmıştır. İki ana alanda bu geliştirmeler öne çıkmaktadır:

  • Matris çarpımları ve ani dikkat süreçleri
  • Yeni hassasiyet formatları

Matris Çarpımları

NVIDIA Blackwell mimarisi, geliştirilmiş verimlilik ve eşzamanlı işlem kapasitesi için tamamen yeni bir Tensor Core sunmaktadır.

Triton’un Matris Çarpımı-Toplama (MMA) pipelining mekanizması genişletilerek, NVIDIA Blackwell’ın yeni Tensor Core’larının otomatik olarak kullanılabilmesi sağlanmıştır. Bu, bellek erişim desenlerinin dikkatli bir şekilde analiz edilmesini ve verimli hesaplama / veri taşıma örtüşmesi için karmaşık derleyici dönüşümleri gerektirmiştir.

Sonuç olarak, FP8 ve FP16 GEMM işlemleri için muazzam bir performans elde edilmiş, bu optimizasyonlar otomatik olarak Triton’un tl.dot ilkesini kullanan her çekirdek için geçerli olmuştur. Genel olarak, Triton, birçok kritik kullanım senaryosunda kütüphane uygulamaları ile karşılaştırılabilir, neredeyse optimal olan bir performans sağlamaktadır.

The line chart shows the Triton GEMM speedup for NVIDIA B200 GPUs compared to NVIDIA H100 GPUs, where GEMM M=N=8192.
Şekil 1. Triton ile NVIDIA Blackwell üzerinde performans iyileştirmeleri

Şekil 1, Triton optimizasyonlarının NVIDIA Blackwell mimarisi üzerindeki donanım performans iyileştirmelerini, FP16 ve FP8 için tipik bir üretken yapay zeka miktarı olan GEMM çekirdeği için sağlamaktadır.

Ani Dikkat

Ani dikkat, modern transformer mimarilerinde kritik bir yapı taşını temsil etmektedir. Triton ile NVIDIA Blackwell üzerinde yapılan geliştirmeler, FP16 dikkatte NVIDIA Hopper GPU mimarisine göre %50 hızlı sonuçlar elde etmiştir.

FP8 ve diğer hassasiyetlerde mutlak performansı artırmaya yönelik sürekli optimizasyonlar sürerken, mevcut ürünler için NVIDIA Blackwell’e geçişi kolaylaştıran bu çalışma büyük bir katkı sağlamaktadır. Ayrıca, mevcut Triton ani dikkat uygulamaları ile bu performans artışı, herhangi bir kod değişikliği gerektirmeden sağlanabilmektedir.

A bar chart shows flash attention performance for NVIDIA Blackwell compared to NVIDIA Hopper.
Şekil 2. Daha karmaşık iş yükleri için büyük performans kazançları

Şekil 2, Triton öğreticilerinde sağlanan ani dikkat çekirdeği gibi daha karmaşık iş yüklerinin, Triton derleyici iyileştirmeleri ile birlikte NVIDIA Blackwell mimarisi üzerindeki büyük performans kazançlarını göstermektedir. Bu çalışmanın bazı iyileştirmeleri, NVIDIA Hopper’ın dikkat performansını da artırmış ve bu verilerde kendini göstermemiştir.

Yeni Hassasiyet Formatları

NVIDIA Blackwell, Open Computing Project‘in mikro ölçekleme formatları gibi devrim niteliğindeki blok ölçekli kayan nokta formatlarını tanıtmaktadır ve Triton, bu formatları NVIDIA Blackwell destekli donanım hızlandırmasına entegre etmiştir.

Bu formatlar, günümüzde pek çok büyük dil modeli çıkarım projelerinde sıklıkla kullanılan yerel olmayan blok ölçekleme tekniklerinden daha yüksek ortalama hassasiyet ve performans sunmaktadır.

OCP format desteği sayesinde MXFP8 GEMM’leri, daha önce gösterilen FP8 GEMM’lerine benzer olağanüstü performans sergilemekte, aynı zamanda Tensor Core üzerinde ölçeklendirmeyi desteklemektedir.

Aynı şekilde, MXFP4, hassasiyet-performans değişiminde yeni bir nokta sunmakta ve FP8 ile MXFP8 GEMM’lerin donanım hızlandırılmış performansının iki katını sunmaktadır.

Triton’un MXFP8 için sunduğu performans, daha önce gösterilen NVIDIA Blackwell hızlandırmalı FP8 ile benzer seviyelerde kalmaktadır. Topluluk ile birlikte blok ölçekleme desteği etrafında yeni kullanım senaryolarını hızlandırmak ve etkinleştirmek için çalışmalara devam edilmektedir.

Gelecekte Geliştirilmesi Gereken Alanlar

MXFP4 gibi alt bayt veri türlerinin yerleştirilmesi ve paketlenmesi kullanıcı tarafından dikkatle ele alınmalıdır. Çekirdek yazarları için kullanıcı dostu hale getirmek ve çerçevelere entegrasyonu kolaylaştırmak amacıyla toplulukla birlikte çalışmayı dört gözle bekliyoruz.

Daha önce bahsedilen matris çarpım çekirdekleri tüm veri türleri için küçük GEMM_K değerlerinde nispeten düşük verimlilik elde etmektedir. Bu, çekirdek içerisinde manuel alt karo ile azaltılabilmekte ve GEMM öğreticilerinde bir örnek olarak uygulanmıştır. Zamanla, derleyici aracılığıyla otomatik warp uzmanlaşması ile şeffaf bir şekilde ele alınması planlanmaktadır.

Daha Fazla Bilgi

Triton’un yaratıcısı Phillippe Tillet ve NVIDIA, bu NVIDIA Blackwell çalışması ve sonuçları hakkında daha fazlasını 17 Mart tarihinde NVIDIA GTC konferansında paylaşacak.

GTC 2025’e sanal olarak katılmak veya canlı takip etmek için kayıt olun.

Bu sürüm, Triton için NVIDIA Blackwell desteği açısından güçlü bir temel oluşturmaktadır; ancak sadece bir başlangıçtır. Gelecekte ne olacağına siz de katkıda bulunabilirsiniz:

  • Tüm uygulamayı keşfedin:/triton-lang/triton GitHub reposunu inceleyin.
  • Topluluğa katılın:GPU MODE Discord topluluğuna katılın.
  • Örnekleri keşfedin: Zenginleşen örnek ve öğretici koleksiyonumuza göz atın.

Triton ile NVIDIA Blackwell üzerinde çalışmaya başlayın ve NVIDIA’nın en son mimarisinin tam potansiyelini ortaya çıkarırken, geliştirme süreciniz üzerinde tam kontrole sahip olun.

Fikirleriniz veya karşılaştığınız sorunlar var mı? NVIDIA ürün yöneticimiz Matthew Nicely ile GitHub’da etiketleyerek iletişime geçin.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri