“Yüksek Hızda Ağ Anomali Tespiti İçin Autoencoder Tabanlı GNN Uygulamaları ve NetFlow Verisi”

Günümüzün kurumsal ve bulut ortamlarının büyümesiyle birlikte, ağ trafiğinin karmaşıklığı ve hacmi dramatik bir şekilde artmaktadır. NetFlow, bir yönlendirici, anahtar veya ana bilgisayar gibi ağ cihazları üzerinden geçen trafik akışlarıyla ilgili meta verileri kaydetmek için kullanılır. Ağ trafiğini anlamak için gerekli olan NetFlow verileri, birbirine bağlantılarla bağlı olan düğümleri temsil eden grafikler şeklinde etkili bir şekilde modellenebilir; bağlantılar, bağlantı süresi ve veri hacmi gibi özellikleri yakalar. Düğüm olarak adlandırılan ev sahipleri, belirli özelliklerden yoksundur.

NetFlow verilerinin hacmi, araştırmalara göre, saniyede on milyonlarca olayı geçebilmekte olup, geleneksel anomali tespit yöntemlerini etkisiz hale getirmektedir. Bireysel bağlantıları izole bir şekilde analiz etmek, saldırıları tespit etme konusunda oldukça zorlayıcıdır çünkü bireysel bağlantılar, daha geniş bir bağlam olmadan genellikle normal görünür. Grafik yapısını kullanarak, topolojik bağlam eklemek mümkündür ve bu da anormal kalıpları tespit etmeyi kolaylaştırır.

Bu yazımızda, büyük ölçekli NetFlow verilerinde anomali tespit etmek için autoencoder tabanlı bir grafik sinir ağı (GNN) uygulamanın yenilikçi bir yolunu tartışacağız.

Geleneksel Anomali Tespit Yöntemleri ve Zorlukları

Geleneksel anomali tespit çözümleri, çoğunlukla sabit eşik değerleri veya basit özellik mühendisliği gibi yöntemlere dayanmakta ve kötü niyetli davranışın evrilen doğasına uyum sağlamakta yetersiz kalmaktadır. Birçok mevcut çözüm, aynı zamanda, gerçek zamanlı olarak saniyede on milyonlarca ağ akışını işlemekte gereken hızlı çıkarım ve ölçeklenebilirliği de başaramamaktadır.

Mevcut GNN tabanlı anomali tespit çözümleri, temel grafik gömme teknikleri, konvansiyonel GNN tabanlı tespit yöntemleri ve ağ verilerine uygulanan autoencoder mimarilerini içermektedir. Ancak bu yöntemlerin sıkça karşılaştığı bazı sorunlar bulunmaktadır:

Hiyerarşik grafik yapıların eksikliği, çok düzeyli kalıpları yakalamakta yetersiz kalmaktadır.
Güvenilir kapsama performansı eksikliği, yalnızca standart NetFlow 5 demetini kullanarak; IP itibarı veya dış tehdit istihbaratı gibi daha fazla meta veri gerektirir. Bu tür bir meta veriyi üretim ölçeğinde edinmek zor veya imkansız olabilir.
Basit düğüm özellikleri, IP adres alanı veya komşuluk gömmelerini tam anlamıyla istismar edememektedir.
Yüksek tespit doğruluğu ve büyük ölçekli, gerçek zamanlı analiz için gerekli olan aşırı yüksek verimliliği başaramama.
Sınırlı esneklik ve ölçeklenebilirlik potansiyeli, yüksek trafik hacimlerinde düşük yanlış pozitif oranlarını sürdüremez.

GNN: Grafik Autoencoder Duyurusu

Bizler, büyük, dinamik NetFlow grafiklerinde anomali tespit edilecek şekilde tasarlanmış bir grafik autoencoder (GAE) içeren yeni bir GNN tabanlı autoencoder hattını sunuyoruz.

Grafik Oluşturma Süreci

Grafik oluşturmanın ilk adımı, verileri yönetilebilir dizilere organize etmektir. Akışlar, bu amaçla belirtilmiş bir grafik boyutuna göre 200 bin akışa dayalı olarak dizilere bölünmektedir. Her bir akış dizisi, bir grafik oluşturacak şekilde daha fazla işleme tabi tutulmaktadır.

Akışlar parçalandıktan sonra, grafiğin temel yapısı oluşturulmaktadır. Akışlardaki her benzersiz IP adresi bir düğüm olarak kabul edilir ve IP adresleri arasındaki her akış bir kenar oluşturur. Bu yapı, grafiğin iskeletini oluşturur ve sonrasında bir PyTorch geometric grafik veri nesnesi içerisinde kapsüllenir.

Grafikte düğümlerin özelliklerine odaklanıldığında, her IP adresini temsil eden düğüm, başlangıçta IP adresinin oktetlerine dayalı bir vektör gömme ile atanır. Bu başlangıç gömmeleri, her düğümün vektör gömmesinin komşu düğümlerinin gömmeleriyle ortalaması alınarak geliştirilir. Bu ortalama, gömmeler arasında minimal değişim sağlanana kadar devam eder. Nihai gömmeler, grafikteki düğümlerin özellikleri olarak hizmet eder.

Her bir akış için, grafikteki bir kenara karşılık gelen üç ana özellik tanımlanır:

İleri byte’lar: Kaynaktan hedefe gönderilen byte sayısı.
Geri byte’lar: Hedeften kaynağa gönderilen byte sayısı.
Akış süresi: Akışın süre bilgisini kapsar.

Bu özellikler, her kenara önemli bir bağlam sağlar, grafiği zenginleştirir ve GNN’nin düğümler arasındaki etkileşimleri daha iyi anlamasını sağlar.

GAE Modelinin Yenilikçi Yönleri

GAE, mevcut en iyi performans gösteren temel çizgiyi aşmayı başarmaktadır. Test veri setimizdeki mevcut durumdaki en iyi GNN modeli Anomal-E‘dir. Benzer şekilde, Anomal-E kenar özelliklerini ve grafik topolojik yapıları kullanarak kendi kendine öğretim metodolojisini uygulamaktadır.

GAE ve Anomal-E’yi aynı veri setlerinde değerlendirdik. GAE modelimiz, doğru pozitif oranı (TPR) ve yanlış pozitif oranında (FPR) Anomal-E’yi geride bıraktı (Tablo 1).

Veri Seti	TPR	FPR	Toplam Akış Sayısı/ Anomal Akışlar	Sınıf Sayısı	Önceki Temel TPR/FPR
NF-CICIDS-2018	87%	15%	8.4M/1.0M	6	88%/29%
NF-UNSW-NB15	98%	2%	1.6M/72k	9	79%/0.2%
NF-ToN-IOT	78%	4%	1.4M/1.1M	9	74%/57%
NF-BoT-IOT	40%	2%	600k/586k	4	46%/60%

Tablo 1. GAE modelinin Anomal-E temel çizgisiyle TPR ve FPR karşılaştırması, dört zemin verisi üzerinde

Bu iyileşme, özellikle siber güvenlik uygulamalarında gerçek dünya anomali tespit görevleri için önemlidir. Yüksek TPR, modelimizin gerçek anomalleri daha yüksek bir oranda doğru bir şekilde tespit edebildiği anlamına gelir; bu, yetkisiz erişim, içeriden gelen tehditler veya ağ ihlalleri gibi kötü niyetli aktivitelerin tespitinde kritik öneme sahiptir.

GAE modelinin daha düşük FPR oranı, normal etkileşimlerin anomali olarak yanlış etiketlenme sayısını azaltır. Bu, bir güvenlik takımının araştırması için zaman alıcı olan yanlış alarm sayısını azaltma açısından oldukça değerlidir. Yanlış alarmları minimize ederek, gerçek tehditlere dikkat edilmesine olanak tanır ve operasyonel verimliliği artırır.

TPR ve FPR arasındaki denge, anomali tespitinde hayati önem taşır çünkü bir metriği optimize etmek genellikle diğerinin aleyhine çalışır. Yüksek TPR’ye sahip bir model, yüksek FPR ile birlikte ise analistleri aşırı yanlış pozitiflerle boğma riski taşırken; düşük FPR’ye sahip bir model, önemli tehditlerin gözden kaçma riskini barındırır. GAE modelinin her iki metriği de aşarak, güvenilir ve pratik bir çözüm sunduğunu göstermektedir.

NVIDIA Morpheus ile Hızlandırılmış GAE

Ağda yüksek throughput ile ilgili genel bir soru, hesaplama verimliliğidir. Morpheus tamamen entegre edildiğinde, GAE’yi neredeyse gerçek zamanlı çıkarım verimliliği sunar.

A bar chart shows the inference throughput comparison of CPU, GPU, and NVIDIA Morpheus pipelines. Metrics show that at a batch size of 2.5 million rows, Morpheus demonstrates 34x throughput improvements compared to a CPU baseline, and is 78% higher than a sequential GPU pipeline. — *Şekil 3. Morpheus işlemi ve GPU sıralı işlemesi ile CPU yalnızca işleme arasında, farklı toplu boyutları boyunca göreceli throughput karşılaştırması.*

Şekil 3’te, Morpheus’un model performansını önemli ölçüde artırdığı, CPU ile karşılaştırıldığında çok daha yüksek bir throughput sağladığı ve her toplu boyutunda GPU sıralı işleme performansını geride bıraktığı gösterilmektedir.

NVIDIA A100 GPU üzerinde test edildiğinde, 2.5M’lik bir toplu boyut ve 32 toplu ile Morpheus işlemi, yaklaşık 2.5M satır/saniye hızında yakın zamanda işlem eğilimleri elde etmektedir. GPU hızlandırmalı temel ile karşılaştırıldığında, Morpheus işlemi saldırganların kalma süresini %78 azaltmaktadır.

Daha Fazla Bilgi Edinin

Bu yaklaşım, hiyerarşik ve çok çözünürlüklü gömme yöntemleri, küresel kenar gömmeleri ve gelişmiş düğüm özellik mühendisliği ile birleştirildiğinde, NetFlow verileri üzerinde yüksek doğruluk ve ölçeklenebilir anomali tespiti sunabileceğini göstermektedir. Gerçek zamanlı, büyük ölçekli ağ güvenliği analizinin temel zorluklarını ele alan bu çözüm, doğru pozitif ve yanlış pozitif oranları arasında güçlü bir denge kurma yeteneği ile dikkat çekmektedir.

Daha detaylı bilgi için, NVIDIA Morpheus Kullanarak Netflow Anomali Tespiti için GNN Tabanlı Autoencoder örneğine GitHub’dan ulaşabilirsiniz.