Önceki yazımızda, çip üretimi ve operasyonlarındaki tahmin modellerinin kurulumu hakkında bilgi verdik. Bu süreçte sık karşılaşılan zorluklar arasında dengesiz veri setleri ve daha incelikli değerlendirme metriklerine olan ihtiyaç yer alıyor. Aynı zamanda, NVIDIA’nın CUDA-X veri bilimi kütüphanelerinin—cuDF ve cuML gibi—bu zorlukların üstesinden gelmemize ve makine öğrenimi iş akışlarını hızlandırmamıza nasıl yardımcı olduğunu keşfettik. Bu blogda, önemli bir adım olan özellik mühendisliğine odaklanıyoruz. Özenle hazırlanmış özelliklerin, GPU hızlandırması ile verimli bir şekilde inşa edildiğinde, model performansını ve dağıtım için hazırlığı önemli ölçüde artırdığını gözlemledik. Örneğin, modellerimiz sık sık 15 dakikalık fabrika pencereleri içinde tahminler gerçekleştirip iletmek zorunda olduğundan, CUDA-X Veri Bilimi kütüphanelerini kullanarak ve aşağıda tartışılacak özellik mühendisliği teknikleriyle ETL işleme süresini %40’a kadar azaltmayı başardık ve bu süreçte model doğruluğunu koruduk veya geliştirdik. Bu etkinlik, yüksek verimli üretim ortamlarında operasyonel sürdürülebilirliği doğrudan etkiliyor. Burada dikkate aldığımız üç ana teknik şunlardır:
- Pozisyonel özelliklerin kullanımı
- Test sonuçlarının birleştirilmesi
- Tarihsel bağlama dayalı ön olasılıkların dahil edilmesi
Tüm bu dönüşümler, cuDF’nin cudf.pandas arayüzünü kullanarak NVIDIA GPU’ları üzerinde ölçeklenebilir bir şekilde çalışacak şekilde tasarlanmıştır.
Pozisyonel Özelliklerin Kullanımı: Mekansal Bağlam Önemlidir
Yarı iletken üretiminde, bir çipin bir wafer üzerindeki fiziksel konumu, performansını önemli ölçüde etkileyebilir. Hatalar veya anormallikler genellikle mekansal kalıplar sergileyebilir; bu nedenle pozisyon verisi, tahmin modellemesi için paha biçilmez bir kaynak oluşturur. Bir wafer üzerindeki bir die’nin X ve Y koordinatlarını, ayrıca bir lot içindeki wafer’ın sırasını temsil eden Z pozisyonunu ekleyerek bu mekansal bağımlılıkları yakalayabiliriz.
Bu mekansal bağlamı modelimize zenginleştirmek için, komşu birimlerin ortalama verimliliği gibi metrikler hesaplıyoruz. Bu işlem, bitişik die’leri tanımlamayı ve belirli bir sınır içinde ortalama verim veya hata oranları gibi istatistikleri hesaplamayı içeriyor. cuDF’nin GPU hızlandırmalı işlemlerini kullanarak, bu hesaplamaları büyük veri setlerinde bile verimli bir şekilde gerçekleştirebiliyoruz.
Test Sonuçlarının Birleştirilmesi: Çoklu Ölçümlerin Sentezlenmesi
Çipler, üretim sürecinde farklı koşullar altında (örneğin voltaj veya sıcaklık) aynı parametre için çok sayıda testten geçer. Bu farklı okumalardan tek bir birleşik özellik oluşturmak için birleştirme tekniğini kullanıyoruz. Bu süreç, ilgili test sonuçlarını gruplandırmayı ve ortalama veya maksimum değer gibi bir temsilci istatistik hesaplamayı içeriyor.
cudf.pandas kullanarak bu işlemleri verimli bir şekilde gerçekleştirebiliriz:
Tarihsel Bağlama Dayalı Ön Olasılıkların Dahil Edilmesi: Geçmişten Öğrenmek
Tarihsel veriler, belirli sonuçların olasılıkları hakkında değerli bilgiler sunabilir. Tester ID’si, lot içindeki wafer pozisyonu, wafer üzerindeki die koordinatları veya diğer bağlamsal faktörler gibi etkenlere bağlı olarak ön olasılıkları hesaplayarak, modellerimizi üretim sürecindeki içsel önyargılar veya eğilimler hakkında bilgilendirebiliriz.
Örneğin, belirli testerların tarihsel olarak daha yüksek hatalı oranlarına sahip olduğu durumlarda, bu bilgilerin dahil edilmesi tahmin doğruluğunu artırabilir. Bu bağlamda yapılan her iki işlem de, günlük büyük hacimli test verileri üzerinde gerçekleştirildiğinden, bu tür ‘groupby’ ve ‘join’ işlemlerini GPU üzerinde yapmak, dar ETL pencereleri içinde kalmamıza yardımcı olur.
Sonuç
Operasyonel süreçlerde özellik mühendisliği, hem doğruluğu artırmak hem de içgörülerin, operasyonel zaman dilimleri içinde karar vermek için hızlı bir şekilde ulaşmasını sağlamakla ilgilidir. CUDA-X GPU hızlandırmalı kütüphaneler ile, 10 dakikadan kısa sürede tahmin yapabilen ve günlük binlerce birim üzerinden büyüyebilen özellik mühendisliği hatları geliştirdik. Bu süreç, benzer yükler altında CPU tabanlı ETL hatlarında 20-25 dakika sürmekteydi. Bu hızlandırma, sıkı SLA’ları karşılamamızı sağlarken, özellik karmaşıklığından ödün vermemizi engelliyor. İster mekansal düzleme alma, ister sinyal birleştirme, ister tarihsel öncelikler olsun; bu tekniklerin her biri, verimlilik içgörülerimizi artırarak test gereksinimlerini azaltmada önemli bir rol oynamıştır.
CUDA-X Veri Bilimi kütüphaneleri hakkında daha fazla bilgi için:
cuML’i denemek için, ücretsiz bir GPU çalışma zamanı etkinleştirilmiş bu ‘Başlarken’ notebook’u inceleyebilir ve cuML sıfır kod değişimi tanıtımı hakkında yazımıza göz atabilirsiniz. CUDA-X kütüphanelerini nasıl daha iyi kullanabileceğinizi keşfetmek için, hızlandırılmış veri bilimi için DLI Eğitim Yolundaki kurslara göz atmanızı öneririz.