Çıkarım (Inference), yapay zeka alanında karmaşıklığın yeni sınırlarını belirleyen bir kavram haline geldi. Modern modeller, yazılım geliştirme, video üretimi ve derin araştırma gibi çeşitli alanlarda karmaşık görevleri yerine getirme yeteneğine sahip, çok adımlı mantık yürütme, kalıcı bellek ve uzun dönemli bağlam ile ilişkili ajan sistemleri olarak evrim geçiriyor. Bu tür yükler, altyapıda benzeri görülmemiş talepler oluşturarak, çıkarımın ölçeklendirilmesi ve optimize edilmesi konusunda yeni zorluklar getiriyor.
Bu zorluklardan biri, belirli bir iş yükü sınıfı için devasa bağlamların işlenmesi konusunun giderek daha kritik hale gelmesidir. Örneğin, yazılım geliştirme sırasında AI sistemleri, tüm kod tabanları üzerinde mantık yürütmeli, dosyalar arası bağımlılıkları sürdürmeli ve depo düzeyindeki yapıyı anlamalıdır—bu da kodlama asistanlarını otomatik tamamlama araçlarından akıllı işbirlikçilerine dönüştürüyor. Benzer şekilde, uzun biçimli video ve araştırma uygulamaları, milyonlarca token boyunca sürekli tutarlılık ve bellek gerektirmektedir. Bu gereksinimler, mevcut altyapının sınırlarını zorlamaktadır.
Bu değişimi ele almak için NVIDIA SMART çerçevesi bir yol sunuyor; bu çerçeve, ölçek, çok boyutlu performans, mimari, yatırım getirisi ve daha geniş teknoloji ekosistemi boyunca çıkarımı optimize ediyor. Bilgisayar ve bellek kaynaklarının verimli bir şekilde tahsisini sağlayan, tamamen yığılmış bir ayrık altyapıyı vurguluyor. NVIDIA Blackwell ve NVIDIA GB200 NVL72 gibi platformlar, düşük hassasiyetli çıkarım için NVFP4 ile birlikte, NVIDIA TensorRT-LLM ve NVIDIA Dynamo gibi açık kaynak yazılımları ile birlikte çıkarım performansını AI alanında yeniden tanımlıyor.
Yeni Nesil Ayrık Çıkarım Altyapısı
Bu blog yazısı, ayrık çıkarım altyapısındaki bir sonraki evrimi keşfedecek ve uzun bağlam AI iş yüklerinin taleplerini karşılamak üzere tasarlanmış özel bir GPU olan Rubin CPX‘yi tanıtacaktır.
Ayrık Çıkarım: Ölçeklenebilir Bir Yaklaşım
Çıkarım, altyapı üzerinde temel olarak farklı talepler oluşturan iki belirgin aşamadan oluşur: bağlam aşaması ve üretim aşaması. Bağlam aşaması, ilk token çıktısını üretmek için büyük hacimlerde giriş verilerini almak ve analiz etmek üzere yüksek verimlilikte işleme gerektirir. Buna karşılık, üretim aşaması bellek bant genişliğine bağlıdır; bu aşamada hızlı bellek transferleri ve NVLink gibi yüksek hızlı bağlantılar, token-by-token çıktı performansını sürdürmek için kritik öneme sahiptir.
Ayrık çıkarım, bu aşamaların bağımsız olarak işlenmesine imkan tanıyarak, bilgisayar ve bellek kaynaklarının hedeflenmiş bir şekilde optimize edilmesini mümkün kılar. Bu mimari değişiklik, verimliliği artırır, gecikmeyi azaltır ve genel kaynak kullanımını iyileştirir.

Rubin CPX: Uzun Bağlam İşlemesini Hızlandırmak İçin Tasarlandı
Ayrık çıkarım, yeni karmaşıklık katmanları ekleyerek, düşük gecikmeli KV önbellek transferleri, LLM-tabanlı yönlendirme ve verimli bellek yönetimi gibi konularda hassas koordinasyon gerektirir. NVIDIA Dynamo, bu bileşenler için orkestra katmanı olarak hizmet vermekte ve yetenekleri son MLPerf Çıkarım sonuçlarında önemli bir rol oynamıştır. GB200 NVL72 üzerinde Dynamo ile ayrıklaştırmanın nasıl yeni performans rekorları belirlediğini öğrenin.
Ayrık çıkarımın, özellikle işlem yoğun bağlam aşamasındaki faydalarından yararlanmak için özel hızlandırma gereklidir. Bu ihtiyacı karşılamak üzere, NVIDIA, uzun bağlam çıkarım iş yükleri için yüksek verimlilikte yüksek verim sunan Rubin CPX GPU‘yu tanıtmaktadır.
Rubin CPX GPU, uzun bağlam performansını artırmak üzere tasarlanmıştır; mevcut altyapıyı tamamlayarak, bağlam odaklı çıkarım dağıtımlarında ölçeklenebilir verimlilik ve maksimum yatırım getirisi sunar. Rubin mimarisine sahip olan Rubin CPX, çıkarımın işlem yoğun bağlam aşaması için çığır açan bir performans sunuyor. 30 petaFLOPs NVFP4 işlem gücü, 128 GB GDDR7 bellek, video kodlama ve kod çözme için donanım desteği ve NVIDIA GB300 NVL72’ye kıyasla 3 kat daha fazla dikkat hızlandırması sunar.
Uzun dizileri verimli bir şekilde işlemek için optimize edilmiş olan Rubin CPX, yazılım uygulama geliştirme ve HD video üretimi gibi yüksek değerli çıkarım kullanım durumları için kritik öneme sahiptir. Mevcut ayrık çıkarım mimarileriyle tamamlanacak şekilde tasarlanan Rubin CPX, büyük ölçekli üretici AI iş yükleri için verimliliği ve yanıt verme hissini artırırken, maksimum ROI sağlar.
Rubin CPX, üretim aşamasını gerçekleştiren NVIDIA Vera CPU’ları ve Rubin GPU’ları ile birlikte çalışır ve uzun bağlam kullanım durumları için eksiksiz, yüksek performanslı bir ayrık hizmet çözümü oluşturur. NVIDIA Vera Rubin NVL144 CPX rafı, 144 Rubin CPX GPU’su, 144 Rubin GPU’su ve 36 Vera CPU’su entegre ederek 8 exaFLOPs NVFP4 işlem gücü sunar—GB300 NVL72’ye kıyasla 7.5 kat daha fazla. Ayrıca, tek bir rafta 100 TB yüksek hızlı bellek ve 1.7 PB/s bellek bant genişliği sağlamaktadır.
NVIDIA Quantum-X800 InfiniBand veya Spectrum-X Ethernet ile birlikte, NVIDIA ConnectX-9 SuperNIC’ler ve Dynamo platformu tarafından düzenlenen Vera Rubin NVL144 CPX, bir milyon token bağlamlı AI çıkarım iş yüklerini güçlendirmek üzere tasarlanmıştır—çıkarım maliyetlerini azaltarak geliştiriciler ve yaratıcılar için ileri düzey yetenekler açmaktadır.
Bu platformdan yılda 30X ila 50X arasında yatırım getirisi sağlanabilmektedir ve bu, 100 milyon dolarlık yatırımın (CAPEX) yanı sıra 5 milyar dolara kadar gelir elde edilmesini sağlamaktadır—çıkarım ekonomisi için yeni bir kriter belirler. Ayrık altyapı, hızlandırma ve tam yığın orkestrasyonun birleşimi ile Vera Rubin NVL144 CPX, yeni nesil üretici AI uygulamaları oluşturan işletmeler için nelerin mümkün olduğunu yeniden tanımlıyor.
Sonuç
NVIDIA Rubin CPX GPU ve NVIDIA Vera Rubin NVL144 CPX rafı, SMART platform felsefesini örneklendirerek, mimari yenilik ve ekosistem entegrasyonu aracılığıyla ölçeklenebilir, çok boyutlu performans ve ROI sunmaktadır. NVFP4 ile güçlendirilmiş ve büyük bağlamlar için tasarlanmış olan bu yapılar, gelişmiş yazılım kodlama ve üretici video gibi iş yükleri için yeni standartlar belirliyor.
Başka bilgi edinmek için NVIDIA Rubin CPX‘yi inceleyebilirsiniz.