SON DAKİKA

Nvdia

“Kaggle Büyük Ustaları: Veri Bilimi Süper Güçleri için Kazanma Stratejilerini Açıklıyor”

Bu yılki Google Cloud Next konferansında, NVIDIA’dan Kaggle Grandmaster’ları David Austin ve Chris Deotte, HP’den Ruchi Bhatia ile birlikte, Kaggle’dan Brenda Flynn yer aldılar. Konferans sırasında, kim olduklarını, neden yarıştıklarını ve dünyanın en büyük veri bilimi yarışma platformunda nasıl katkı sağladıklarını ve kazandıklarını anlattılar.

Bu blog yazısı, tartışmalarının bir kısmını, makine öğrenimi problemlerini ele alırken izlenebilecek en iyi uygulamaları, ipuçlarını ve kullandıkları favori araçlarını içermektedir.

Kaggle Grandmaster’ları Tanıyalım

David Austin, NVIDIA’nın Kaggle Grandmaster ekibinin bir üyesidir. Aynı zamanda NVIDIA’da AI Yazılım Mühendisi olarak görev yapmaktadır ve açık kaynak LLM uygulama geliştirme konusunda teknik liderdir. Kimya mühendisliği alanında eğitim almış olan Austin, veri bilimci olarak çalıştığı süre zarfında yarı iletken üretimi, endüstriyel yapay zeka ve ileri düzey LLM uygulamaları gibi çeşitli sektöre katkıda bulunmuştur. Çalışması, teknoloji ile pratik çözümler arasında bir köprü kurmayı hedefler. Austin, Yarışmalar Kategorisi’nden Grandmaster unvanına sahiptir.

Ruchi Bhatia, Carnegie Mellon Üniversitesi’nden Bilgi Sistemleri Yönetimi alanında yüksek lisans diplomasına sahip bir bilgisayar mühendisidir. Şu anda HP’de Veri Bilimi ve Yapay Zeka Ürün Pazarlama Müdürü olarak çalışmaktadır. Mentorluğu ve hikayesini paylaşarak, gelişen teknoloji dünyasında genç teknolojistlere rehberlik etmektedir. Bhatia, Notlar, Veri Setleri ve Tartışmalar kategorilerinde en genç üçlü Kaggle Grandmaster’dır.

Chris Deotte, NVIDIA’nın Kaggle Grandmaster ekibinin bir diğer üyesi ve NVIDIA’da kıdemli veri bilimcisidir. Matematik alanında B.A. derecesine sahip olan Deotte, grafik sanatçılığı, fotoğrafçılık, marangozluk ve öğretmenlik gibi çeşitli alanlarda kariyer yapmıştır. Aynı zamanda, paralel işlemeyi optimize etme üzerine bir tezle hesaplamalı bilimler ve matematik alanında doktorasını tamamlamıştır ve dörde katlanan Kaggle Grandmaster’ıdır.

Kaggle Grandmaster’ların Yarışma Deneyimleri

Yarışmaya katılma motivasyonunuz nedir ve Grandmaster olma yolunda sizi ne etkiledi?

Deotte: Aslında, Grandmaster olmayı hedeflemiyordum. 2018 yılında Kaggle’a katıldım ve topluluğun eğlencesine, zeka bulmacalarına ve öğrenme fırsatlarına bağımlı hale geldim. Öğretmen geçmişim sayesinde, ilk olarak Tartışmalar ve Notlar kategorilerinde Grandmaster unvanını kazandım. Daha sonra daha ciddi bir yaklaşım benimseyerek Yarışmalar ve Veri Setleri kategorilerinde Grandmaster unvanını elde ettim. Çeşitli geçmişim, sıradışı çözümler bulmama yardımcı oldu.

Bhatia: Kaggle’da yarışmaya katılmak, teorik bilgimi pratikte uygulamak için bir yoldu. Zamanla bu durum daha fazlası haline geldi: her gün %1 daha iyi olma çabasının bedelidir. Grandmaster unvanına ulaşmamda bir büyük kazanım değil, tutarlılık, işbirliği ve öğrenme obsesyonu etkili oldu. En iyi çözümleri inceledim, “bu neden işe yaradı?” diye sordum ve modelleri sıfırdan yeniden inşa ettim. Kendimi daha iyi olan kişilerle sardım. Amaç kazanmaktı; gelişmekti. Dereceler bu yolda geldi.

En başarılı yarışmalarınızı düşündüğünüzde, sonuçlarınızı önemli ölçüde etkileyen tek bir karşıt veya alışılmadık yaklaşım neydi?

Austin: Belki de alışılmadık sayılabilecek bir yaklaşımım, veri sağlandığı yarışmalarda ilk birkaç günü veriyi görselleştirerek ve anlayarak geçirmek. Görüntü yarışmalarında, tüm görüntüleri bir sayfaya render alıp üzerinden geçiyorum ve ne anlatmaya çalıştıklarını anlamaya çalışıyorum. Beynimiz bazı şeyleri algılayabiliyor ve bu, algoritmaların yapamadığı yere götürüyor. Doğal dil işleme yarışmalarında ise alt boyutlu bir alanda gömme (embedding) görselleştirmesi yapıyorum. Bu teknik, uydu görüntüleri yarışmasında oldukça yardımcı oldu ve görüntülerin farklı dağılımlarına dair içgörüler sağladı, ki bu da gerçek ile sentetik olarak üretilen görüntüleri ayırt etmekte çok faydalı oldu.

Makine Öğrenimi Problemlerini Nasıl Ele Alırsınız?

Deotte: Bir projeye başlamak oldukça kolaydır. İlk önce veriyi keşfederiz, ardından veri tipine uygun standart bir referans modeli oluştururuz. Nihayetinde yerel bir doğrulama şeması oluşturur ve referansın doğrulama metriğini hesaplarız. Bu, bizim referans skorumuzdur.

Bunun ötesinde referansı aşmak zor. Bu, veriyi derinlemesine anlamayı gerektirir; bu da EDA (Keşifsel Veri Analizi) aracılığıyla sağlanır ve referans modelimizin nasıl davrandığını gözlemlemekle mümkün olur. Bu anlayış, denemeye değecek yeni fikirler önerecektir. Daha sonra, bu yeni fikirleri hayata geçirmek, daha fazla anlayış kazandıracak ve daha fazla fikir önerecektir. Bu süreci mümkün olduğunca hızlı bir şekilde tekrarlarız!

Geliştirme kurulumunuz nedir? Hangi araçları özellikle yararlı buluyorsunuz?

Austin: Geliştirme kurulumum konusunda oldukça titiz ve tutkuluyum, zira bilgisayar donanımlarını seviyorum. Son 20 yıldır sahip olduğum her bilgisayarı kendim inşa ettim ve belirli iş yükleri için bileşenleri overclock etmeyi, yoğun olarak kullandığım bileşenlerin su soğutmasını yapmayı ve ağır donanımları ev ofisimin dışına çıkarmak için iyi bir ağ kurulumu yapmayı seviyorum.

Yazılım için, zamanımı çözümler inşa etmeye harcamak için iyi çalışan çevreler ve konteynerler kullanmayı tercih ediyorum. Görselleştirme gibi görevler için NVIDIA’nın CUDA-X veri bilimi kütüphanelerini, örneğin verileri alt boyutlu bir alanda görüntülemek için cuML kullanıyorum.

Yarışma deneyimlerinizden, sizi sürekli olarak üst sıralara taşıyan bir strateji veya yöntem nedir?

Bhatia: Genellikle en büyük eksiklik, problemi doğru bir şekilde formüle etmemekte ve tekrarlayıcı bir sezgiyi izlemekte. Araçları bilmek bir şey; bunları ne zaman ve nasıl kullanacağınızı bilmek ise diğer bir şey. Kaggle’da başarı sıklıkla şu unsurlardan gelir:

  • Veri hikayesi anlatımı, veri setinin gerçekte ne hakkında olduğunu anlamak.
  • Sızma, zaman ayrımı veya dengesiz veri ile başa çıkmak için akıllı çapraz doğrulama stratejileri.
  • Yaratıcı özellik mühendisliği veya hedef dönüşümleri.

Başvurduğum bir teknik, kamu/özel LB ayrımını simüle etmek için çoklu CV katmanları kullanmaktır; bu, kamu puanlarına aşırı uydurma durumunu kontrol etmek için bir sağlamadır. Ayrıca, yarışmaları, ürün döngüleri gibi ele alıyorum: MVP önce (basit referans), ardından geri bildirim döngüleriyle iterasyon, mükemmeliyetçilik değil.

Kaggle için Kullanışlı İpuçları ve Stratejiler

Deotte: Dört şey öneriyorum. İlk olarak, sağlam bir yerel doğrulama kurun. İkincisi, deneysel hattınızı hızlandırmak için GPU kullanarak cuML veya NVIDIA cuDF gibi hızlandırıcılar ile deneyleri mümkün olduğunca hızlı yaparak geliştirin. Üçüncüsü, eğitim ve test veri arasındaki farkları analiz edin ve giderin. Son olarak, yarışma metriğini anlayın ve çözümünüzü buna göre optimize edin.

Bhatia: Kaggle’ın gücü, uygulamalı öğrenme ile yapılandırılmıştır. Bir diğer gözden kaçmış ipucu: tartışma forumlarını araştırmalara benzer bir şekilde okuyun. En iyi katılımcılar bu başlıklarda değerli veriler paylaşır; veri sızmaları, alternatif metrikler veya yaratıcı özellik fikirleri gibi birçok önemli bilgi bulmak mümkündür.

Ayrıca, notların yeniden üretilebilirliğine ve çalışma süresi farkındalığına dikkat etmek de önemlidir. Hata ayıklama için hafif betikler kullanın, yalnızca son çalışmalarda ağır modeller kullanın. Araştırma arası özellikleri ve tahminleri kaydedin; bunu bir üretim ML boru hattı şeklinde düşünün.

Geleceğin Yarışmalarında Yapay Zeka Sistem Tasarımı

Bhatia: Yarışmalarda enerji verimliliğinden çok bahsetmiyoruz, ancak bunu sezgisel olarak pratikte uyguluyoruz; model daraltma, çıkarım süresi optimizasyonu veya model distilasyonu gibi yöntemlerle. Benim görüşüme göre, enerji bilincine sahip modelleme, gelecekte özellikle kurumsal ve ürün ortamlarında bir rekabet avantajı sağlayacak. Prompt mühendisliği ve LLM boru hattında ise, gecikme bütçeli akıl yürütme üzerine düşünmeyi seviyorum; akıl yürütmenin derinliğini hız ile dengelemek önemlidir. Bir teknik olarak, yalnızca gerektiğinde zincirleme düşünce yaratıyor, yaygın durumlarda basit ifadeleri kullanıyorum. Bu da token kullanımını ve belleği minimize etmeye yönelik olmalı.

Model seçimi için yaklaşımınız nasıl?

Bhatia: Yaklaşımım duruma bağlıdır. Eğer bir Kaggle yarışması ise, performansı maksimum düzeye çıkarmaya önem veririm. Eğer ürün odaklıysa, performansı gecikme, yorumlanabilirlik ve dağıtım kolaylığı ile dengelerim. “En iyi” modeli körü körüne aramam; veriye bakarım. Güçlü tablo desenleri görüyorsam, önce XGBoost veya LightGBM gibi ağaç tabanlı modellerle başlarım. Eğer metin ağırsa, hem klasik NLP hem de transformer tabanlı yaklaşımları denerim. Görüntü görevleri için, en iyi sonuçları alana kadar önceden eğitilmiş CNN’leri göz önünde bulundururum.

Her zaman hızlı geçiş noktaları oluşturarak basit bir çizgisel model ve temel bir ağaç inşa ederim; bu, sinyali anlamak için bir harita sağlar. Oradan devam ederim. Birkaç mimari veya çerçeveyi test eder, çapraz doğrulama puanlarını karşılaştırırım ve genelleme takibini yaparım.

Üzerime erken karar vermem; modelleri bir hipotez gibi ele alırım: test et, öğren ve gerekirse yön değiştir. Temel olan, sadece doğru modeli seçmek değil; aynı zamanda yanlış olandan ne zaman uzaklaşmanız gerektiğini bilmektir.

NVIDIA’nın bir dizi Kaggle Grandmaster’ı bulunuyor. Bu ekip ne yapıyor?

Deotte: Ekip, hayal gibi bir iş. Çalışma sorumluluklarımızın bir parçası olarak Kaggle’da rekabet edebiliyoruz. Yarışmalardaki gözlemlerimizi ve deneyimlerimizi kullanarak NVIDIA ürünlerini geliştirmeye, iç projeleri iyileştirmeye ve NVIDIA müşterilerine yardımcı olmaya çalışıyoruz. Uzmanlık alanımız model doğruluğunu artırmaktır ve NVIDIA’da daha iyi araçlar geliştirmek veya daha iyi modeller oluşturmak için birçok fırsat bulunmaktadır.

Gelecek Hakkında Daha Fazla Bilgi Edinin

NVIDIA Kaggle Grandmaster ekibi, birçok yarışmada yer almakta; bu yazılar, Özellik Mühendisliği ile Yarışma ve Yapay Zeka Matematik Olimpiyatı gibi son kazançlarını vurgulamaktadır.

Makinel öğrenim modellerinizi hızlandırmak için NVIDIA cuML hakkında bilgi edinebilir ve bunu not defterimizde test edebilirsiniz.

cuML hakkında daha fazla bilgi için, NVIDIA cuML ile ilgili yazımıza göz atabilir ve elden geçirme dersleri almak için Hızlandırılmış Veri Bilimi Öğrenme Yolu‘na katılabilirsiniz.

CUDA-X kütüphaneleri, cuML veya geri bildirimleriniz için #RAPIDS-GoAi Slack kanalımıza katılabilirsiniz.

Kaynak

Nvdia Blog

Düşüncenizi Paylaşın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

İlgili Teknoloji Haberleri