“NVIDIA NIM İnferans Mikroservisleri ve ITMonitron ile Gerçek Zamanlı BT Olay Tespiti ve Analitiği”

Günümüzün hızlı IT ortamında, tüm olaylar genellikle belirgin alarm sinyalleriyle başlamaz. İlk sinyaller bazen çok nazik, dağınık olur; bir uyarının gözden kaçması, sessiz bir SLO ihlali veya zamanla kullanıcıları etkileyen bir hizmetin düşüşü gibi.

NVIDIA IT ekibi tarafından tasarlanan ITMonitron, bu hafif işaretleri anlamlandırmaya yardımcı olan bir iç araçtır. Gerçek zamanlı telemetriyi NVIDIA NIM inference mikroservisleri ve AI tabanlı özetleme ile birleştirerek, ITMonitron parçalı izlemeyi birleşik ve uygulanabilir bir bilgiye dönüştürüyor. Bu sayede tespit süresi azalıyor ve daha hızlı karar verme yeteneği sağlanıyor.

Vizyon: Dağınık sinyallerden birleşik zekaya ulaşmak

Şirketler, uygulama izleme, altyapı izleme, korelasyon araçları, SaaS platformları ve kurumsal güvenlik izlemeye kadar bir dizi izleme aracı ile bombardımana tutuluyor. Bu araçların her biri kendi verisini üretiyor ve bu veriler genellikle silolar içinde yaşıyor.

Sonuç ne? Yavaş olay tespiti, artırılmış Ortalama Tespit Süresi (MTTD) ve Ortalama Çözüm Süresi (MTTR) ile birlikte manuel triage çoğalması.

ITMonitron ile bu parçalanmayı çözmeyi hedefliyoruz; tüm bunları birbirine bağlayan bir yapışkan madde gibi çalışarak birleşik bir sistem sağlık görünümü sağlıyoruz.

*Şekil 1. ITMonitron mimari genel görünümü*

ITMonitron Architecture diagram with data sources and NIM integration for ITMonitron. — *Şekil 1. ITMonitron mimari genel görünümü*

Verileri gerçek zamanlı olarak toplamak, ilişkilendirmek ve normalleştirmek suretiyle, ITMonitron SRE’ler (Site Reliability Engineers), olay yöneticileri ve yöneticilere 360° bir sistem sağlık görünümü sunarak, olayları daha hızlı tespit etmelerini ve daha etkili bir şekilde yanıt vermelerini sağlıyor. Bu kombinasyon, yalnızca ham uyarılardan çok daha fazlasını, uygulanabilir içgörüler sunuyor.

Teknik İnceleme: Pulsun Mühendisliği

ITMonitron, verimli veri alımı, normalleştirme ve özetleme için tasarlanmış, modüler bir Go tabanlı platformdur. Mimari, çeşitli gözlemlenebilirlik ve olay yönetim araçları ile entegrasyon sağlamak üzere tasarlanmıştır; bu sayede SRE ekipleri sistemlerini etkili bir şekilde izleyip yönetebilirler.

Platformun ana bileşenleri:

API geçiş tabakası: Birden fazla izleme kaynağını erişmek için birleşik bir giriş noktası. API karmaşasını soyutlar, tutarlılığı sağlar ve önbellekleme ve performansı optimize eder.
Kaynak bağlantıları: Telemetri alımı için özel olarak tasarlanmış bağlantı seti. Bu bağlantılar, tekrarları yönetir ve veri formatı değişkenliği ile başa çıkar, dayanıklı veri boru hatları sağlar.
Abstraksiyon ve orkestrasyon katmanı: Telemetri verilerini tutarlı bir şemaya normalleştirir, ilişkilendirir ve zenginleştirir. Ayrıca, sıkça erişilen değerleri önbelleğe alır, gürültüyü azaltır ve verilerin işlenmesi için verimli bir boru hattı sunar.
LLM destekli olay özetleme: NVIDIA NIM tarafından desteklenen bu katman, yüksek bağlamlı ve kısa olay raporları oluşturarak gürültüyü azaltır ve teknik ekiplerle yöneticiler için netlik artırır.
Özel panolar: SRE’ler ve yöneticiler için hızlı karar verme ve etkili olay yanıtı sağlamak amacıyla gerçek zamanlı görselleştirmeleri sağlayan Grafana entegrasyonları.
Ölçeklenebilir mimari: REST tabanlı iletişim ile modüler bir mikroservis çerçevesine dayanan ITMonitron, ölçeklenebilirlik ve yeni sistemlerle kolay entegrasyon sağlar.

ITMonitron içinde: Ölçeklenebilir bir AI motoru örneği

Gerçek Zamanlı LLM Entegrasyonu ile NVIDIA NIM

NVIDIA NIM tarafından desteklenen bu katman, yüksek bağlamlı ve kısa olay raporları oluşturarak gürültüyü azaltır ve teknik ekiplerle yöneticiler için netliği artırır. Varsayılan olarak, üretim iş yüklerinde dengeleyici bir doğruluk ve performans sunan llama-3.1-nemotron-70b-instruct modelini kullanıyoruz.

Farklı kullanım durumlarını karşılamak ve esneklik sağlamak üzere, ITMonitron, NIM arayüzü aracılığıyla birden fazla üst düzey modeli destekler. Kullanıcılar, şunlardan oluşturulmuş bir küratör setinden dinamik olarak seçim yapabilir:

Bu model bağımsız tasarım, özetleme kalitesini değerlendirme, gelişen model performansına uyum sağlama ve olay anlatımlarının ortamlar arası açık, doğru ve uygulanabilir kalmasını sağlamak için evrilebilir.

örnek Özet (NVIDIA NIM tarafından oluşturuldu):
“Hizmet X, DNS gecikmesi nedeniyle performans düşüklüğü yaşıyor. Site-A ve Site-B boyunca uyarılar tetiklenmiş durumda. Kullanıcı etkisi muhtemelen batı kıyısında. Kök neden araştırılıyor.”

İlişkili Devam Eden Değişiklikler:

Site A İnternet devre göç ve yükseltme (CHG001), Site A’daki Pan-FW down sorunu ile ilişkilendirilebilir, ancak doğrudan bir bağlantı açıkça doğrulanmamıştır.
Arızalı ikincil güvenlik duvarı değişimi (CHG002), güvenlik duvarı ile ilgili uyarılarla potansiyel olarak bağlantılı olabilir.

Bu özlü, uygulanabilir özetler, paydaşların, uzun ve karmaşık uyarı akışlarına veya parçalı panolara dalmadan karar vermelerine olanak tanır.

Akıllı Kesinti Doğrulama Servisi

ITMonitron platformunun üzerine inşa edilen geleneksel bir sorunla karşı karşıya kalan, kullanıcı tarafından bildirilen bir sorunun daha geniş bir kesinti ile ilgili olup olmadığını belirlemeye yönelik gelişmiş bir doğrulama hizmeti geliştirdik:

“Bu kullanıcı tarafından bildirilmiş sorun, daha büyük bir kesintinin parçası mı?”

AI yetenekleri, kullanıcı bildirimi sorunlarını canlı altyapı sinyalleriyle doğrulamak için dönüşüm potansiyeli sunar.

Yüksek sesle iki belirgin seçenek şimdilik mevcut:

Fonksiyon çağırma, LLM’nin kullanıcının sorgusunu analiz ettiği, hangi işlevin veya aracın çağrılması gerektiğini belirlediği (örneğin, checkDatadogMetrics, queryIncidentDB vb.), uygun parametreleri çıkardığı ve bir yanıt yönetimi yürüttüğü.
Ajansça AI, LLM’nin belirli bellek ile otonom bir ajanın rolü üstlendiği, birçok aracı ve adımı akıl yürütme ile inceleyebilen, doğrulamanın nasıl yapılacağını dinamik olarak karar verdiği.

Her ne kadar bu yöntemler etkileyici olsa da, kesinti doğrulaması gibi dar, iyi tanımlanmış bir görev için her ikisi de aşırı mühendislik olarak gördüğümüz bir durumu temsil ediyor.

Neden Hesap Ajansıyla İnşa Etmeyelim?

Ajans sistemleri esneklik sunarken, önemli ticari kayıplar getirebilir:

Çok adımlı akıl yürütme süreci nedeniyle daha yavaş çalışırlar.
Üretimde izlenmesi ve hata ayıklanması zorlaşır.
Gürültü ve basit izleme verileri arasında meydana gelen eylemleri hayal edebilirler.
Dağıtım hassasiyeti için, her zaman doğru aracın ve parametrelerin seçimini sıfırdan yapma bilişsel yükü yüksektir ve bu, yüksek gecikme süresi ve yüksek doğruluk gibi bir kullanım durumu için kötü bir uyum oluşturur.

Neden Fonksiyon çağrısı ile Yalnızca Kalmayalım?

LLM’nin belirli bir işlev gerçekleştirilmesi için hangi işlevi seçeceği anlamına gelen fonksiyon çağırma, daha hafif bir yöntemdir, ancak hala bazı varsayımlarda bulunur:

Modelin, sorunun türünü doğru bir şekilde sınıflandırabileceği (uygulama, ağ, kimlik, Wi-Fi, vb.).
Karmaşık doğal dil girişlerinden parametreleri çıkarma ve normalleştirebileceği.
Sorun belirsizliğinden yararlanarak hangi işlevin çağrılması gerektiğini bileceği.
Pratikte, kullanıcı sorguları yeterince açık değildir veya bağlama bağlıdır. Örneğin: “Tokyo’daki otel Wi-Fi’sinden VPN’e bağlanırken zaman aşımı alıyorum” sorgusu.

… ağ bağlantısı, kimlik doğrulama, hizmet erişilebilirliği veya yerel İnternet Servis Sağlayıcıları gibi birçok faktörü içerebilir. Hangi tanı aracının seçileceğini belirlemek oldukça zordur ve genellikle kırılgandır.

Felsefemiz: LLM’leri Gerçekten Parladıkları Yerde Kullanın

LLM’yi karar verici ve araç yönetici olarak konumlandırmak yerine, yaklaşımı tersine çevirdik:

Tüm ilgili sinyalleri önceden düzenliyoruz, böylece sürekli olarak izleme kaynaklarımızdan olası kesinti aday verilerini alıyoruz.
Ortamda önemli sorunlara dair gerçek zamanlı, özetlenmiş bir görünüm sunuyoruz (hizmetler, altyapı katmanları ve devam eden bakım dahil).
LLM’ye yalnızca bir görev veriyoruz: doğal dildeki kullanıcı sorgusunu mevcut kesinti özetleriyle karşılaştırmak ve sorunun olası bir geniş kesinti ile ilgili olup olmadığını belirlemek.

Bu yöntem, LLM’nin zihinsel yükünü önemli ölçüde azaltıyor. Daha az seçenek ve iyi belirlenmiş bir istem ile LLM, daha keskin düşünme yapabiliyor; bu durum doğruluğu artırıyor, hayali eylemleri azaltıyor ve yanıtları daha güvenilir kılıyor.

Yapılandırılmış Yanıt Formatı

Kesinti doğrulama hizmetinin çıktısını makine okur hale getirmek ve farklı sistemler üzerinden kolayca kullanılabilir hale getirmek için LLM’den yanıtları kesin yapılandırılmış bir JSON formatında döndürmesini istiyoruz.

{
  "is_outage": true | false,
  "confidence": "NoConfidence" | "LowConfidence" | "HighConfidence",
  "reasoning": "<naturalspecification>"
}

Bu yapı, aşağıdaki avantajları sağlıyor:

Hizmeti, çeşitli altsistemlerle entegre edebilecek bir REST API’si olarak sunmak.
Doğrulama sonuçlarının tutarlı programatik işlenmesini sağlamak.
Yapılandırılmış çıktılara göre otomatik triage ve uyarı yapma olanağını sağlamak.
Zamanla yanıtları kaydetmek ve analiz etmek, model davranışını iyileştirmek ve yanlış pozitifler/negatifleri sistematik olarak takip etmek.

Anlamsız doğal dil yanıtlarına kaçınarak, hem insanlar hem de makineler LLM’nin akıl yürütmesinden faydalanabiliyor ve otomasyon için temiz, belirli API’leri koruyabiliyoruz.

İstem Tasarımı: Kısıtlama ile Kesinlik

Kesinti doğrulama hizmetinin temelinde, LLM’yi deterministik bir değerlendirici gibi davranmaya yönlendiren dikkatlice hazırlanmış bir istem bulunmaktadır.

İstem, modeli kullanıcı tarafından bildirilen sorunları gerçek zamanlı izleme özetlerine eşleştiren bir uzman olarak konumlandırır. Kararlarının mevcut izleme verileri ile sınırlı olarak verilmesi talimatını alır ve doğrulanabilir şeyler dışında bir şey varsaymamaktadır.

Ana Tasarım İlkeleri

Sıkı Eşleşme Kuralları: LLM, kullanıcı sorunuyla kesinti özetleri arasında doğrudan ve tartışmasız bir eşleşme olduğunda yalnızca bir kesintiyi onaylamak için yetkilidir. Yüksek güvenli bir sonuç bildirebilmek için hizmet adlarının, konumların ve tanımlayıcıların tam olarak eşleşmesi gerekir.

Açık Güven Eşiği: İstem, yüksek güven ile düşük güven kararını neyin oluşturduğunu tanımlar. Bu, daha sonraki sistemlerin ve insanların modelin kesinliğini anlayabileceği yapılandırılmış bir şekilde yorumlamak için yardımcı olur.

Normalizasyon Mantığı: Kullanıcı sorguları serbest formda olduğundan, modelin temel normalizasyon (boşluk izleme, büyük/küçük harf hesabı vb.) yapması talimatını alır, böylece kullanıcıların hizmetlere (örn. “nv bot” ve “nvbot”) atıflarındaki küçük farklılıkları ele alabilir.

Desteklenen Hizmet Listesi: Her sorgu, isteme dinamik olarak enjekte edilen desteklenen uygulamaların listesi ile belirlenir. Bu, modelin yalnızca izleme görünürlüğü olduğu şeyleri değerlendirerek kapsamı üzerinde akıllıca karar vermesini sağlar ve dışındaki durumlarda doğru bir şekilde reddeder.

Gelişmiş Kullanılabilirlik: Kesinti Zekası Parlak Elde

Kesinti doğrulama hizmeti şu anda Slack tabanlı kesinti botumuzda aktif, kullanıcılar ve çağrı ekibi için kesintisiz bir etkileşim sağlıyor. Herkes şu komutları kullanabilir:

/outage-validate Hizmet X kapalı mı?
/outage-validate Finlandiya'da wi fi'ye bağlanmakta sorun yaşıyorum

Bot, sorguyu REST API’mize gönderir, LLM tabanlı doğrulamayı çalıştırır ve kesinti eşleşmesi tespit edildiğinde otomatik olarak durumu bildirir. Bu anlık geri bildirim döngüsü, kullanıcı güvenini artırıyor, tekrar eden biletleri azaltıyor ve olay ekiplerinin daha hızlı ve daha akıllı bir şekilde yanıt vermesini sağlıyor.

Sonuçlar ve Planlarımız

Kesinti botumuza doğrudan bir geri bildirim döngüsü kurduk; kullanıcılar her doğrulama yanıtı için olumlu/olumsuz reaksiyon verebilir. Bu geri bildirim paha biçilmez, sürekli olarak:

İstemlerimizi netlik ve kesinlik ile geliştirme.
Üretimde birden fazla LLM ve LRM ile deneyler yapma.
Gerçek dünya doğruluğunu ölçme, yalnızca teorik değerlendirme puanları değil.

*Şekil 2. IT olayına yönelik ITMonitron yanıtı*

Alpha sürümünde, 100’den fazla geri bildirim aldık ve %93’lük bir olumlu geri dönüş oranı görüyoruz. Bu erken sinyal, kullanıcıların beklediği ile modelin sunduğu sonuçların güçlü bir uyum içinde olduğunu gösteriyor. Bu geri bildirim verisini kullanarak ayrıca:

Zayıf noktaları (yanlış negatifler/pozitifler) belirlemek.
Model adayları arasında A/B değerlendirmeleri yapmak.
Ölçekle tutarlı performans sağlamak için istem stratejisini uyarlamak.

İçgörüler

ITMonitron’ı inşa etmek, bir mühendislik zorluğu kadar öğrenme yolculuğu da oldu. İşte geliştirme sürecimizdeki bazı kritik sonuçlar:

Alarm gürültüsü azaltmanın önemi. Her alarm eşit değildir ve her olay dikkate alınmayı gerektirmez. En önemli öğrenimlerden biri, yüksek kaliteli özetlemenin disiplinli telemetri hijyeninden başladığıdır.
Abstraksiyon gücü, fakat kısıtlamalarla. Farklı platformlar arasındaki verileri normalleştirmek karmaşıktır. Öğrenilen; agresif abstraksiyonun ITMonitron’un API kullanılabilirliğini artırırken, ileri düzey kullanım durumları için kaynak belirli detayların ortaya çıkmasını sağlamanın öneminin de farkında olmaktır.
İstem Mühendisliği gerçektir. Kararları yönlendiren yürütme özetleri, yalnızca dil akışı gerektirmez. Yapılandırılmış bir bağlam, alanında spesifik mantık ve hedeflemeli istem gerektirir. Bunlar kendi kendine gelmez. İstem mühendisliği ve bağlamsal zenginleştirme, üretim LLM sistemleri için kritik becerilerdir.
Kesinti doğrulaması, kesin kapsam ve kısıtlar gerektirir. LLM’lerle kesintileri doğrulamanın başarılı bir şekilde yapılabilmesi, sorguları yüksek doğru yanıtlara ve güvenilirliğe bağlayacak şekilde sınırlandırılmış istemler ve iyi tanımlanmış eşleşme kuralları arasında olmalıdır.
Gerçek zamanlı kullanıcı geribildirim döngüleri modeli güvenilirliliği artırır. Kullanıcı geri bildirimiyle kesinti doğrulama botuna doğrudan dahil olmak, uç noktaları hızlı bir şekilde belirlemeye yardımcı oldu ve bu da sürekli iyileştirme için önemli bir referans noktası ve AI destekli doğrulamazına olan güveni artırdı.

Ölçmek Gerekenler

ITMonitron’un etkisini ölçmek üzere sürekli olarak bu temel metrikleri izleyeceğiz:

Bağlılık kapsamı: Kritik sistemler üzerinde %100 izleme görünürlüğü sağlamak.
Ortalama Tespit Süresi (MTTD): Zekice korelasyon yoluyla MTTD’de %30’luk bir azalma hedeflemek.
Sinyal-Gürültü oranı: Sürekli ayarlamalarla izleme tabanlı tespiti artırmak.

İleriye Dönük Planlar

İleriye baktığımızda, sadece MTTR’yi azaltmak değil, kesintilerin önceden tahmin edilmesi ve engellenmesi hedefimiz var. ITMonitron, akıllı sistemler ile operasyonel mükemmeliyetin birleşimine olan bağlılığımızı temsil ediyor. Yakın gelecekteki özellikler şunları içerecek:

Kesinti doğrulama güven puanlaması.
Tekrar eden kalıpları ve öncülleri belirlemek için geçmiş olayların birleştirilmesi.

Sonuç

NVIDIA NIM inference mikroservisleri ile geliştirilen ITMonitron, dağınık telemetriyi netliğe dönüştürüyor — özlü, uygulanabilir içgörüler sunarak SRE’lerin, olay yöneticilerinin ve yöneticilerin hızlı, birleşik bir sistem sağlık görünümüne erişim sağlamasına yardımcı oluyor. Ayrıca, akıllı kesinti doğrulama hizmeti ile kullanıcı tarafından bildirilen sorunların daha geniş olayların parçası olup olmadığını hızlı bir şekilde onaylamaya yardımcı olarak, gürültüyü azaltıyor ve daha hızlı, daha doğru yanıtların verilmesini sağlıyor. Eğer alarm yorgunluğu, silo haline gelen veriler veya uzun MTTR ile karşı karşıyaysanız, bu yaklaşımlar size bir yol sunabilir.

Teşekkürler

IT liderlik ekibine sürekli destekleri için en derin şükranlarımızı sunmak istiyoruz. Nina Mushiana’ya, ITMonitron’un göstergelerinin ve görselleştirmelerinin sadece net ve doğru olmasını sağlamak değil, aynı zamanda kullanıcılar için belirgin, uygulanabilir bir görünüm oluşturma konusundaki özverisi için özel teşekkürler. Destekleri olmadan, bu girişim tam potansiyeline ulaşamazdı.

Geri bildiriminiz veya sorularınız var mı?

Görüşlerinizi duymaktan memnuniyet duyarız! Aşağıda bir yorum bırakabilir veya NVIDIA Geliştirici Forumları üzerinden bizimle iletişime geçebilirsiniz.