SON DAKİKA

Nvdia

“Outerbounds ve DGX Cloud Lepton ile İçeride AI Sistemleri Nasıl Kurulur?”

Gerçek dünyada, üretim düzeyinde bir yapay zeka sistemi oluşturmanın birçok zorluk barındırdığını göz ardı etmek kolaydır. Bu, kendi iç verilerini dış LLM’lerle (büyüklüklerine göre farklılaştırılmış dil modelleri) birleştiren bir ajan oluşturma ya da talep üzerine anime üreten bir hizmet geliştirme gibi durumlarda geçerlidir. Her iki durumda da, sistem, çevrimiçi ve çevrimdışı bileşenler arasında dinamik verileri ve çok sayıda modeli uyumlu bir şekilde yönetmelidir.

Çok sayıda yapay zeka hizmeti, LLM’ler dahil olmak üzere, hazır API’ler aracılığıyla kolayca erişilebilir, bu da hızlı prototipleme ve hızlı demolar yapmayı mümkün kılar. Ürün gereksinimleri geliştikçe ve API sarmalayıcıları artan oranda standartlaşıp sıradanlaştıkça, farklılaştırılmış yapay zeka ürünleri genellikle özel verilere, şuurlu şekilde tasarlanmış koda ve ince ayar yapılmış modellere daha fazla bağımlı hale gelir. Bu değişim, şirketleri önemli bileşenleri kendi bünyelerinde geliştirme ve işletme yönünde teşvik edebilir; bu da güvenlik, gizlilik ve uygunluk kaygılarını hafifletmeye yardımcı olur.

Bu yazıda, kendi iç yapımızda çalışmanın faydalarını gösteren bir uygulama örneğini ele alıyoruz. Reddit postu stilize edici bir araç ve subreddit önericisi, on binlerce vektör indeksi ve bir çevrimiçi LLM bileşeni ile desteklenecek. Uygulama dışında, gerekli altyapıyı da vurgulayıp NVIDIA’nın DGX Cloud Lepton kaynakları sayesinde esnek GPU erişimini nasıl kullanabileceğimizi gösteriyoruz. Ayrıca, tüm sistemi baştan sona yönetmek için metaflow açık kaynaklı yazılımını nasıl kullanabileceğimizi de gösteriyoruz; bu yazılım, NVIDIA Inception programı ortağı Outerbounds tarafından yönetilen bir hizmet olarak sunulmaktadır.

Outerbounds’ın Farklılaştırılmış AI Ürün ve Hizmetleri Geliştirmeye Yardımı

Yapay zeka bileşenlerini kendi bünyenize almakla ilgili en büyük zorluklardan biri, operasyonel maliyet ve karmaşıklıktır. Eğitim, çıkarım ve RAG (İçerik Geri Kazanım) sistemleri gibi hemen hemen tüm bileşenler GPU’lara bağlıdır ve ölçeklenebilir bir şekilde verimli çalışmak için karmaşık bir yazılım yığınına ihtiyaç duyar. AI yığını oldukça derindir: GPU merkezli veri merkezlerinden Nebius gibi, optimizasyonlu modeller ve NVIDIA NIM mikro hizmetleri gibi çıkarım çalışma sürelerine kadar. Sonrasında ise geliştirici dostu API’ler ile orkestrasyon gelirki, burada Outerbounds devreye girer.

Outerbounds, AI sistemlerini kendi ortamınızda geliştirmek ve işletmek için güvenli, bulut tabanlı bir platform sunar. Açık kaynak Metaflow üzerine inşa edilen bu platform, geliştiricilere, ölçekli yapay zeka ürünlerini oluşturarak, uyumlu hale getirerek ve sürekli olarak iyileştirerek geliştirmeleri için güçlü ve bileşen tabanlı API’ler sağlar.

NVIDIA DGX Cloud Lepton ile AI Sistemleri Oluşturma

GPU bulut ortamı, günümüzdeki yapay zeka patlamasının başlangıcından bu yana önemli ölçüde evrim geçirmiştir. Şimdi, çeşitli coğrafi erişim ve altyapı derinliğine sahip büyük ve küçük birçok sağlayıcı, GPU kaynakları sunmaktadır. Bu ortamda gezinmek karmaşık olabilir; bu bulutların mevcut hiper ölçekli altyapınızla çalışması gerekmektedir.

Outerbounds’ın önemli bir avantajı, çeşitli hesaplama kaynaklarına kolay erişim sağlamasıdır; bu da farklılaştırılmış yapay zeka ürünleri geliştirmek için büyük bir engeli ortadan kaldırır. Önden tanımlanmış NVIDIA Cloud Functions (NVCF) ile entegre olan Outerbounds, son zamanlarda Nebius ile ortaklık kurarak NVIDIA Cloud Partner’ı olarak hizmet vermektedir.

Outerbounds, artık büyük bir GPU havuzuna erişimi artıran NVIDIA DGX Cloud Lepton için erken erişim sağlamaktadır.

Aşağıdaki diyagram, aşağıda tanıtılan bir demoya ilişkin yeni kurulumun bağlamını göstermektedir.

An architecture diagram showing NVIDIA DGX Cloud Lepton integrated with the AI stack on Outerbounds and Nebius cloud infrastructure accelerated by NVIDIA GPUs .
Şekil 1. NVIDIA DGX Cloud Lepton, Outerbounds AI yığını ve Nebius ile GPU’lar üzerinden entegre.

Yeni GPU bulutlarının benimsenmesinin önündeki yaygın bir engel, şirketin mevcut altyapısının, geliştirici uygulama (DevOps) uygulamalarının ve güvenlik politikalarının mevcut bulut ortamlarıyla sıkı bir şekilde bütünleşmesidir. Outerbounds, DGX Cloud Lepton ve Nebius gibi NVIDIA Cloud Partners ile entegre olmasını sağlayarak, kendi politikalarınızı getirmenize ve mevcut kodu, migrasyon yapmadan, ana bulutunuzla sorunsuz bir şekilde çalıştırmanıza olanak tanır. Bu durum, yeni altyapıya erişim sağlarken risk ve çabayı minimuma indirir.

DGX Cloud Lepton ile Bir Reddit Ajanı Geliştirme

Mevcut yığın ve gerçek dünya AI karmaşıklıklarını göstermek için, eğlenceli bir demo uygulaması üzerinden ilerleyeceğiz: Reddit’te gönderi yapacağınız en uygun grupları ve stil önerilerini sağlayan bir ajan. Bir ekran görüntüsü bin söze bedeldir:

Screenshot of a Reddit Agent tool. At the top, a text box contains the user’s prompt: “I think ion thrusters are a good option for future Mars missions.” Below, under “Suggested Subreddits,” three subreddit cards are shown: r/ArtemisProgram, r/SpaceXLounge, and r/IsaacArthur. Each card has a short paragraph post tailored to that subreddit, discussing ion thrusters for Mars missions in contexts such as NASA’s Solar Electric Propulsion, pairing with nuclear power, and their role in space logistics.
Şekil 2. Reddit Ajanı aracından örnek bir çıktı. Her öneri, iyon iticilerinin topluluğun ilgi alanlarına nasıl bağlandığını işaret eden kısa bir gönderi içeriyor.

Reddit verisi kamuya açık olmasına rağmen, Hugging Face’de bulunan önceden işlenmiş bir veri seti kullandık; bu veri seti, neredeyse 100 milyon gönderi ve yorumu içermektedir. (Birçok gerçek dünya uygulaması özel veya gizli veriler içerir.) Böyle durumlarda, veri gizliliğini korumak ve sistem üzerinde tam kontrol sağlamak için, kendinize ait tamamlayıcı bir yapı oluşturmak sıkça faydalı ve gerekebilir; ve bunu örneğimizde gösterdik.

Aşağıda, sistemin genel mimarisi ve işleyişine dair bir taslak bulunmaktadır:

Diagram of Reddit Agent architecture. At the top, a “Prompt” box leads to databases that match subreddits and comments, then format the content into responses. This process is supported by NVIDIA DGX Cloud Lepton, which contains four components: Embeddings model, Update vector indices, Retrieval model, and Agent deployment. Output flows back to generate the final response. The system is deployed in the cloud and is powered by Nebius.
Şekil 3. Outerbounds tarafından dağıtılan Reddit Ajanı’nın sistem mimarisi.

Demo uygulamasında bir istemde bulunduğunuzda şu işlemler gerçekleşir:

  1. Sistem, bir istemi nv-embedqa-e5-v5 modeli kullanarak bir gömüme dönüştürür; bu model, NVIDIA NeMo Retriever koleksiyonunun bir parçasıdır ve DGX Cloud Lepton üzerinden NIM konteyneri olarak dağıtılmıştır.
  2. Gömme, tüm subreddit’lerin merkezlerine karşı eşleştirilen GPU hızlandırmalı vektör veri tabanı FAISS ile eşleşir.
  3. Gömme daha sonra en iyi subreddit’lerin spesifik vektör veri tabanlarına karşı eşleştirilerek konusal örnekler alınır.
  4. Orijinal istem ve konusal örnekler, büyük bir LLM olan llama-3_1-nemotron-70b-instruct‘a (NIM konteyneri olarak dağıtılmıştır) gönderilir ve istek, seçilen subreddit’lerin stiline uygun bir biçimde yeniden formatlanır.
  5. Ajan kendisi, DGX Cloud Lepton üzerinde konteyner olarak dağıtılır.

Ayrıca, vektör indekslerinin güncellenmesini içeren bir iş akışı da planlanmaktadır. DGX Cloud ile Metaflow arasındaki entegrasyon sayesinde, bir Metaflow iş akışı parçası olarak indeks oluşturma görevini çalıştırmak mümkündür; bunu yapmak için aşağıdaki dekoratörleri eklemeniz yeterlidir:

@conda(packages={'faiss-gpu-cuvs': '1.11.0'}, python='3.11')
@nvidia(gpu=1, gpu_type='NEBIUS_H100')
@step
def build_indices(self):
	....

Özellikle, yukarıda belirtilen @conda dekoratörü gibi, yazılım tedarik zincirini verimli bir şekilde yönetebilir; böylece tüm gerekli bağımlılıkların, NVIDIA CUDA sürücülerinin bile hangi çalışma ortamını hedef alırsanız alın mevcut olmasını garanti edebilirsiniz.

Hızlı Gömme ve Vektör İndeksleri Üretimi

İndeksleme iş akışımız, neredeyse 100 milyon gönderi ve yorumu içeren bir veri seti ile başlar. 10’dan az kelime içeren yorumlar ve 100’den az gönderiye sahip subreddit’ler çıkarıldıktan sonra, veri setinde 50 milyon geçiş, 30.000 subreddit’e yayılarak kalmıştır.

Bu örnekte özel bir özellik olarak, sistem tek bir vektör veri tabanı oluşturmak yerine, her subreddit için ayrı bir vektör veri tabanı inşa eder; toplamda 30.000 vektör veri tabanı, her topluluğun tarzına uygun örnekleri eşleştirir. Ayrıca, her topluluğun merkez noktasını bulmak için bir veritabanı oluşturulmaktadır.

Veri setinin büyük ölçeği nedeniyle, sistemin:

  1. Etkili bir şekilde çok sayıda gömme üretmesi ve bunu makul bir sürede gerçekleştirmesi gerekmektedir.
  2. Gömme verilerini hızlı bir şekilde indekslemesi, on binlerce veri tabanı parçası üretmesi gerekmektedir.
  3. İstemlerde düşük gecikme ile gömme üretmesi ve eşleşen girişlerle yanıt vermesi gerekmektedir.

DGX Cloud Lepton’ın en büyük yararlarından biri, farklı ortamlarda derin bir GPU kaynak havuzuna erişim sağlamasıdır. Bu özellikten yararlanan sistem, vektörlerin işlenmesini paralel hale getirebilir; Outerbounds üzerindeki bir iş akışı tarafından düzenlenerek, birden fazla NVIDIA H100 GPU’su üzerinden gömme modeline ulaşabilir. Hizmet, paralel işçileri işleyerek neredeyse doğrusal bir ölçeklenebilirlik sağlar:

A bar chart with 10 green bars showing embeddings throughput as a function of the number of parallel workers.
Şekil 4. Paralel çalışan sayısına göre gömü üretimi.

Daha fazla benchmark sonucu için bu siteye göz atabilirsiniz; burada NVIDIA’nın farklı GPU altyapılarında yer alan diğer gömme modelleri hakkında bilgiler yer almaktadır. Sonuçta üretilen 50 milyon 1024-boyutlu gömme, neredeyse 200GB’lık bir boyuta ulaşmıştır; böylece Metaflow’un optimize edilmiş IO yolunu kullanmak, matrisin taşınmasında yardım alır.

Sistem, NVIDIA H100 GPU üzerinde çalışan yeni NVIDIA cuVS hızlandırmalı FAISS kütüphanesini kullanarak çok yüksek bir performans sergilemektedir. 10 milyon gömüyü sadece 80 saniyede indeksleyebiliyor. Bu durumda, 30.000 kadar küçük indeks üretimi, tek bir H100 üzerinde büyük bir CPU örneği olan r5.24xlarge’a kıyasla 2,5x daha hızlıdır; bu CPU örneği 60 CPU çekirdeğini aynı anda çalıştırmaktadır.

Nebius sayesinde, GPU hızlandırmalı sürümü – tek bir H100 kullanarak – 2 kat daha hızlı ve 2 kat daha ucuzdur.

Outerbounds ile Üretim Hazır AI Sistemleri Oluşturma

Reddit Önerici Ajanı, tipik bir AI sisteminin yapısını göstermektedir ve şunları içermektedir:

  • Çeşitli LLM’ler: Bu durumda bir gömme ve bir çıkarım modeli.
  • Ajan Dağıtımları: LLM’leri çağıran ve buna göre işlem yapan durum bilgisi olan işçiler.
  • Toplu İşleme: Vektör indekslerinin oluşturulması gibi veri işlemleri.

Tüm bu bileşenleri, güvenli ve uyum içinde yönetebileceğiniz uyumlu bir sistem şeklinde tasarlamalı ve çalıştırmalısınız. Önemli olan, geliştirme iş akışlarınız ve DevOps uygulamalarınızın tüm sistem boyunca güvenli iterasyonlar destekleyecek şekilde tasarlanmasıdır; bu da model, ajan sürümleri ve veri setlerinin A/B test edilmesine olanak tanır ve tüm varlıklara ilişkin detaylı izleme sağlar.

Outerbounds, bu ihtiyaçları ele alarak hem çevrimiçi ajanları hem de çevrimdışı iş akışlarını tek bir platform üzerinde sunmaktadır. En son hızlandırılmış hesaplamalara erişim sağlar ve NVIDIA NIM konteynerleri ve GPU hızlandırmalı vektör indeksleri gibi birinci sınıf bileşenlerle birlikte yapay zeka sistemleri oluşturabilirsiniz.

Cihazlarınızı da kolay Python API’leri ile erişilebilir kılar. Bu da basit olan şeyleri basit tutarak aynı zamanda karmaşık çözümlerin de mümkün olmasını sağlar.

Bir örnek vermek gerekirse, Reddit Ajanı’nın belirli bir sürümünün Outerbounds üzerindeki canlı dağıtımı aşağıdaki gibidir:

Screenshot of the Outerbounds platform showing the “Reddit Recommender” deployment page. The agent is active and deployed to an NVIDIA H100 GPU compute pool in Nebius, using NVIDIA NIM MessageFormatter and Embeddings models. The interface lists components for Code, Data, and Model, along with 2/64 active workers. A console log displays recent subreddit suggestions for example prompts, such as recommending r/ArtemisProgram, r/Spaceflight, and r/IsaacArthur for a Mars ion thruster discussion. The left sidebar contains navigation links for project assets, components, deployments, workflows, and platform settings.
Şekil 5. Reddit Ajanı için Outerbounds dağıtım arayüzü.

Şekil 5’te görüldüğü gibi, Outerbounds tüm ana varlıkları, kod, veri ve modeller gibi uçtan uca çözümü oluşturan bileşenleri takip etmektedir. Bu, birden fazla kişi birlikte çalıştığında (veya birden fazla AI pilotu olduğunda) özellikle faydalıdır; çünkü her biri kendi varlıklarına sahip, izole edilmiş dallı dağıtımlar arasında herhangi bir sayıda eşzamanlı varyantın güvenli bir şekilde dağıtımını sağlamaya olanak tanır.

Bu takip yetenekleri sayesinde, varyantları birbirleriyle kolayca değerlendirebilir; örneğin, off-the-shelf API’lerin performansını özel modellerle karşılaştırabilirsiniz.

Tam Sahiplik ile Farklılaştırılmış AI Sistemleri Geliştirme

Farklılaştırılmış yapay zeka ürünleri üretmek için, ölçeklenebilir GPU hesaplama ile geliştirici dostu bir yazılım katmanına ihtiyacınız vardır. Kurumsal dağıtımlar ayrıca coğrafya, uyumluluk ve veri ikamet gibi faktörleri de göz önünde bulundurmalıdır; bu da altyapı tercihlerini önemli kılar.

DGX Cloud Lepton, birden fazla GPU sağlayıcısına karşılık gelen tek bir arayüz sunarak, hesaplama talebini gereksinimlerinizle eşleştirmenizi sağlar. Outerbounds, bu temelin üstüne inşa edilmiş olup, yapay zeka uygulamaları geliştirmek ve işletmek için gereken araçları sunmaktadır.

Reddit Ajanı’na yukarıdaki değer önerisini r/dailybargains gibi popüler bir Reddit grubunda vurgulamasını söylemek isterseniz, şu şekilde bir cevap alabilirsiniz:

Outerbounds, NVIDIA H100 GPU’larında iş yükleri çalıştırmak için ücretsiz kredi sunuyor. Ayrıca, kendi bulutunuzda özel modeller ve ajanları oluşturmanıza, dağıtmanıza ve iterasyon yapmanıza yardımcı olan kurumsal düzeyde AI platformuna da erişim sağlıyorsunuz.

Bu yetenekleri kendi ortamınızda test etmeye başlamak için Outerbounds adresinden başlayın. Deneme sürecinizi desteklemek için Nebius altyapısında ücretsiz GPU kredileri talep edin.

Ayrıca DGX Cloud Lepton ile daha derin bilgi sahibi olmak için NVIDIA Geliştirici Forumları’na göz atabilir veya NVIDIA’nın dünya genelindeki AI girişimlerini desteklediği NVIDIA Inception programını öğrenebilirsiniz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri