Spotlight: Perplexity AI, NVIDIA Inference Yığını Kullanarak Aylık 400 Milyon Arama Sorgusu Gerçekleştiriyor

Yapay zeka destekli hizmetlere olan talep hızla artıyor, bu da BT ve altyapı ekipleri üzerinde ağır bir baskı oluşturuyor. Bu ekipler, artan talebi karşılamak için gerekli olan donanım ve yazılımları sağlamakla sorumlu olup, maliyet verimliliği ile optimal kullanıcı deneyimi arasında denge kurmaya çalışıyorlar. Bu zorluğu, Perplexity AI adı verilen AI destekli bir arama motorunun çıkarım ekibi ile birlikte yaşıyoruz. Perplexity AI, her ay 435 milyonun üzerinde sorgu işliyor ve her bir sorgu birden fazla AI çıkarım isteği anlamına geliyor.

Bu talebi karşılamak için, Perplexity çıkarım ekibi, maliyet etkinliği sağlayan NVIDIA H100 Tensor Core GPU’ları, NVIDIA Triton Inference Server ve NVIDIA TensorRT-LLM kullanmayı tercih etti. Bu yazıda, ekibin deneyimlerine dayanan bazı dağıtım en iyi uygulamaları ve toplam sahip olma maliyetindeki (TCO) tasarrufları detaylandırılacaktır.

Birden Fazla AI Modeline Aynı Anda Hizmet Verme

Perplexity’nin geniş kullanıcı tabanını desteklemek ve arama, özetleme ve soru yanıtlama gibi çeşitli talepleri karşılayabilmek için, çıkarım ekibi aynı anda 20’den fazla AI modeli sunmaktadır. Bu modeller, popüler açık kaynak Llama 3.1 modellerinin 8B, 70B ve 405B gibi farklı varyasyonlarını içermektedir.

Kullanıcı taleplerini uygun modellere eşleştirmek için, şirket daha küçük sınıflandırıcı modeller kullanarak kullanıcı niyetini belirlemekte. Sınıflandırıcılar tarafından gerçek zamanlı olarak algılanan kullanıcı görevleri (örneğin, metin tamamlama), GPU pod’larında dağıtılan özel modellere yönlendirilir. Her pod, bir veya daha fazla NVIDIA H100 GPU’sundan oluşmakta ve NVIDIA Triton Inference Server instance’ı tarafından yönetilmektedir. Bu pod’lar, maliyet verimliliği ve kullanıcı etkileşimini sağlamak amacıyla sıkı hizmet düzeyi anlaşmaları (SLA’lar) altında çalışmaktadır.

Perplexity’nin büyük kullanıcı tabanını ve gün içindeki trafik dalgalanmalarını karşılayabilmek için bu pod’lar, Kubernetes kümesinde barındırılmaktadır. Kullanıcı taleplerini yük ve kullanım oranlarına göre uygun pod’a yönlendiren, içinde geliştirilmiş bir ön yüz planlayıcısı ile desteklenmektedir.

Sıkı Hizmet Düzeyi Anlaşmalarını Karşılama

Perplexity’nin değişken kullanım senaryoları için doğru SLA’ları tanımlayabilmek amacıyla, çıkarım ekibi kapsamlı A/B testleri gerçekleştirmekte, farklı yapılandırmaları ve bunların kullanıcı deneyimi üzerindeki etkilerini değerlendirmektedir. Amaçları, GPU kullanımını maksimize ederken her bir spesifik kullanım durumu için hedef SLA’yı sürekli olarak karşılamaktır. Batching süresini iyileştirerek çıkarım hizmetlerinin maliyetini optimize etmektedirler.

Daha küçük, 1 milyardan az parametreye sahip olan modeller için, düşük gecikme süresi ulaşmak önceliklidir. Bu modeller genellikle kullanıcının göremeyeceği şekilde çalışmakta ve daha geniş bir iş akışının parçası olmaktadır. Bu nedenle, bu sorgular için yapılandırmalar genellikle düşük batch boyutlarına sahiptir. Bu modelin daha küçük bellek ayak izinden dolayı, ekibin NVIDIA H100 GPU üzerinde eş zamanlı olarak birden fazla modeli çalıştırması sağlanarak yüksek kaynak kullanımı korunmaktadır.

Kullanıcı etkileşimi üzerinde daha büyük etkisi olan Llama 8B, 70B ve 405B gibi modellerde, ekran analizi ve kritik metrikler, ilk token için geçen süre, kullanıcı başına saniyedeki token sayısı ve milyon sorgu başına maliyet gibi temel verilere dayalı daha derin bir analiz yapılmaktadır.

Yeni Performans Seviyeleri Sunma

Perplexity uygulamalarını ve kullanım durumlarını, çıkarım hizmet yazılımlarını ve donanım hızlandırıcıları optimize etme konusunda kapsamlı bir yaklaşım benimsemektedir. Çıkarım hizmet yazılımı açısından, ekip NVIDIA Triton mühendislik ekibi ile birlikte, bir LLM iş akışının ön doldurma ve çözme çıkarım aşamalarını ayrı NVIDIA GPU’larına dağıtan parçalı hizmet tekniğini uygulamak için çalışmaktadır. Bu teknik, genel sistem verimliliğini artırmakta ve SLA’ları karşılarken token başına maliyetleri aşağı çekmektedir.

Sadece yazılım yığınını optimize etmenin performans iyileştirmeleri için belirli bir noktada faydalı olabileceğinin farkında olan Perplexity ekibi, daha fazla performans sunabilmek için donanım yeniliklerini de kritik öneme sahip görmektedir. Bu nedenle, NVIDIA Blackwell platformunu değerlendirmek için hevesle çalışmaktadırlar.

Sonuç olarak, Perplexity çıkarım ekibi, bu yeniliklerin, trilyon parametreli LLM’ler için inferans performansında 30 katlık iyileşmeler sağladığını bilmektedir.

Başlamak

NVIDIA Triton Inference Server ve NVIDIA TensorRT, GitHub’da bulunan açık kaynak projelerdir. Ayrıca, NVIDIA NGC‘dan çekilebilen Docker konteynerleri olarak da mevcuttur. Bu projeler, NVIDIA AI Enterprise‘ın bir parçasıdır ve kurumsal düzeyde güvenlik, istikrar ve destek sunmaktadır. Hızlı değer elde etmek isteyen işletmeler, NVIDIA NIM kullanarak, geniş bir AI model yelpazesinde hızlandırılmış çıkarım için kolay kullanılabilir mikro hizmetler edinmektedir.

Daha fazla bilgi edinmek için şu kaynaklara göz atabilirsiniz:

Kaynak

Nvdia Blog

Exit mobile version