Kendini Düzeltme Yeteneğine Sahip Yapay Zeka İş Akışları ile Ticaret Kaydı ve Değerlendirmeyi Kolaylaştırın

Büyük Diller Modelleri (LLM’ler) ile sohbet ve dijital asistan uygulamalarındaki başarı, bu teknolojinin iş süreçlerinin otomasyonu konusundaki potansiyelini artırıyor. Ancak, bu tür iş akışlarında insan düzeyinde güvenilirliğe ulaşmak zor olsa da, iyileştirilmesi gereken önemli alanları öne çıkartıyor ve yenilikçi çabaları destekliyor.

Güvenilirlik sorunlarına rağmen, serbest biçim dil içeren iş akışlarını otomatikleştirmenin büyük bir iş potansiyeli taşıdığı belirtiliyor. Bu tür içerik için yapay zekanın, manuel işleme alternatif olarak en uygun seçenek olduğu vurgulanıyor.

Bu yazıda, yapay zeka tabanlı serbest biçim metin iş akışlarının neden çoğunlukla başarısız olduğuna ve ayarlama hatalarını düzeltme ile AI’yi birleştirmenin finansal ‘ne olursa olsun’ analizlerinde ticaret girişi için neredeyse mükemmel bir doğruluk sağlama yollarını keşfedeceğiz.

Deneylerimiz, veri kontrolü endişelerini çözen, gecikmeyi azaltan ve bulut API’lerine kıyasla maliyetleri düşüren, NVIDIA NIM ile güçlendirildi. NIM, Qwen-3 ve DeepSeek-v3 gibi modellerin yerel olarak performans değerlendirmesi için kullanılmasını sağladı.

Ticaret Girişi

‘Ne olursa olsun’ analizi, bir finansal kuruluşun risk, ticaret limitleri ve sermaye gereksinimlerini değerlendirmesini içerir. Bu süreçteki ilk adım ticaret girişi, yani potansiyel ticaretin ticaret sistemine eklenmesidir. Ticaret girişi, serbest biçim bir metin olarak bu tür çeşitli başlıklar altında yer alabilir: e-posta zincirleri, trader sohbetleri veya sesli komutlar gibi.

Giriş verisi serbest biçimdir ve örneğin aşağıdaki gibi basit ifadelerden karmaşık, detaylı açıklamalara kadar çeşitlenebilir:

5y sabit %3 karşısında SOFR'da 100m ödenecek, 10 Ocak'tan itibaren geçerli

Bu örnek, en yaygın işlem gören finansal araçlardan biri olan faiz oranı swapını tanımlar. Burada, iki tarafın birbirine belirli aralıklarla sabit ya da değişken faiz ödemeleri yapması söz konusudur. İki karşıt ödeme akışı ‘swap’ın bacakları olarak adlandırılır. Bu durumda, bir bacak %3 sabit ödemeleri içerir; diğer bacak ise $100 milyon nominal tutar üzerinden yayımlanan ABD Doları değişken faiz oranı endeksi olan SOFR’ye dayanır.

Ticaret açıklamalarının önceden tanımlanmış bir biçim eksikliği, otomasyonun önünde büyük zorluklar çıkarmaktadır. İşlemler çeşitli biçimlerde tanımlanabilir, bu da kural veya şablon tabanlı çözümlemeleri zorlaştırır. Örneğin, aynı swap şöyle de tanımlanabilir:

$100m üzerinden %3 swap alımına karşı maturing 10-Oca-2030

Sonuç olarak, enformasyonların tanımının yapılırken arka planda yatan karmaşık ilişkilerin anlaşılması gerekmektedir. Özellikle AI’nin, bu tür karmaşık metinleri anlamaları konusunda yetenekli olması, ama özel bir yönlendirme olmaksızın, model eğitimi ve veri etiketlemesine dikkat edilmesi gerektiğini ortaya koyuyor.

Örnek çıkış, ilk örneği Llama 3.1 70B modeli ile, “Bu veriyi bir sözlük haline getir.” basit yönlendirmesiyle sağlanmıştır:

{
"nominal": 100000000,
"vade": "5Y",
"geçerlilik_tarihi": "2024-01-10",
"bacak_1": {
    "taraf": "öde",
    "sabit_oran": "3%",
},
"bacak_2": {
    "taraf": "al",
    "endeks": "SOFR",
}
}

Buna rağmen, LLM’in verdiği bu örnekte yanlış bir bilgi bulunmaktadır. Bu hatayı ve benzer hataları aşmanın yollarını bir sonraki kısımda inceleyeceğiz.

LLM Tabanlı Ticaret Yakalama Süreçlerinde Yanlışları Kontrol Etme

CompatibL’in 2024 TradeEntry.ai hackathonu katılımcıları, iyi hazırlanmış bir yönlendirme ile yapılan LLM çağrısının basit ticaret metinleri için %90-95 doğruluk sağladığını gösterdi. Ancak daha karmaşık girdilerde bu oran %80’e düştü ve bu, üretim uygulamaları için yetersizdir.

Hackathon sırasında gözlemlenen birçok hata, AI’nin yetersiz kaldığından değil, gereğinden fazla işlem yapmasından kaynaklanıyordu; yani model, eğitim verilerinden öğrendiği ancak belirli bir işlem için geçerli olmayan ek dönüşümleri gerçekleştirmişti.

Örneğin, LLM çıktısında yer alan başlangıç tarihi (2024-01-10) girişte belirtilmeyen bir yılı eklemiştir. Burada model, Aralık 2024 tarihli güncel verilerden öğrenerek tarihi süreli bir bilgiyi yanlış değerlendirmiştir.

AI tabanlı kod asistanları, yanlış model varsayımlarını düzeltmek için insan etkileşimi içerir. Ancak, bu işlemde her aşamada insan müdahelesi otomasyon amacını ortadan kaldıracaktır. Bunun yerine, Python ile bir kendinden düzeltme yaklaşımı benimseyeceğiz. Burada LLM’den serbest biçim metin girişini bir veri sözlüğüne dönüştürmesini isterken, ek bir mantıksal işlem gerektiren adımları otomatik olarak düzenli bir yapı ile gerçekleştireceğiz.

Bu yaklaşımda, LLM’den, orijinal ticaret metnini doğru bir şekilde oluşturacak bir dize şablonu ve veri sözlüğü sağlaması istenmektedir. İlk örnek için dize şablonu şu şekilde yapılandırılabilir:

{sabit_taraf} {vade} sabit {sabit_oran} karşısında {hareket_endeksi} üstünde {nominal}, geçerlilik {geçerlilik_tarihi}

Bu tür bir dize şablonu çıkarılan verilerin, orijinal ticaret anlatımının anlam ve yapısını tam olarak yakalaması için önemlidir. Eğer birkaç hata kalırsa veya yeni hatalar ortaya çıkarsa, düzeltme süreci devam eder ve genellikle 3 iterasyondan az sürede tüm hatalar ortadan kaldırılır. Çıktıdaki veri sözlüğü, önceki bölümde tartıştığımız örnekten farklı olacaktır, çünkü modelin varsayılan alanları içermesi gibi bir işlem yapılmamıştır.

Açık Modellerin Kullanımı

NVIDIA NIM, düşük gecikme ve yüksek veri aktarım hızları için optimize edilmiş, standart API’lerle donatılmış yerel GPU hızlandırılmış tahmin Docker konteynerleri sunmaktadır. NIM mikro servisleri, doğruluk ve hız dengesini kurmak için farklı model boyutlarını destekler.

NIM’i bu yazıda kendini düzeltme iş akışını değerlendirmek için kullandık, Qwen ve DeepSeek modellerini yerel olarak değerlendirdik. Model performansını ölçmek için, CompatibL’in 2024 TradeEntry.ai hackathonunda toplanan bir test setinden yararlandık. Ayrıca, modelin belirli bir görevi anlamasına yardımcı olan örnek verilerle öğrenme tekniğini kullandık.

Özellikle, örnekteki girdilerin ve çıktılarının yer aldığı iki farklı yönlendirme versiyonu test edildi: bir tanesi tek örnek, diğeri ise on örnek içermekteydi.

Model performansını değerlendirirken, aşağıdaki sonuçları her bir işlem için ölçtük:

Doğru Pozitifler (TP): Tuttuğumuz bir değer mevcut ve tahmin ile gerçek eşleşiyor.
Yanlış Pozitifler (FP): Model tahmini yanlış bir değere dayanmakta ya da var olmayan bir durumu öne sürmektedir.
Yanlış Negatifler (FN): Gerçek bir değere ulaşılması mümkün iken model tahmini bu durumu gözden kaçırmıştır.

Bu sonuçları ölçtüğümüzde, aşağıdaki üç metriği hesaplıyoruz:

Hatırlama (Recall) = TP / (TP + FN). Yüksek hatırlama, modelimizin daha fazla ilgili sonucu geriye döndürdüğünün göstergesidir.
Kesinlik (Precision) = TP / (TP + FP). Yüksek kesinlik, modelimizin daha fazla ilgili sonuç verdiğini gösterir.
F1 Skoru = (2 * Kesinlik * Hatırlama) / (Kesinlik + Hatırlama). F1 skoru, kesinlik ve hatırlamanın armonik ortalamasıdır.

Kendini düzeltme işlemi sırasında maksimum 5 iterasyon kulanıyoruz. Bununla birlikte, LLM’ler her çalıştıklarında farklı sonuçlar verir, sonuç olarak sıcaklığı 0,6 olarak ayarlayıp her modelimizi test setinde 5 kez çalıştırıyoruz. Ortalama sonuçlar üzerinden aşağıdaki verilere ulaşılmıştır:

Bar chart comparing performance of various LLMs across 1-shot and 10-shot settings. All models show improved F1-scores with self-correction, with DeepSeek-R1 (10-shot) achieving the highest at 0.988. — *Şekil 1. Kendini düzeltme ile model F1 skorları*

A bar chart showing total false positives and false negatives for various LLMs under 1-shot and 10-shot settings. — *Şekil 2. Ticaret yakalama hataları*

Her iki grafik de kendini düzeltme yönteminin %20 ile %25 arasında hata oranını azalttığını ve F1 skorlarını %3 ile %5 arasında arttırdığını göstermektedir. Özellikle hata düzeltme ve yapısal görev ayrıştırmasında üst seviyede verime sahip olan, önyargı ile eğitilmiş modeller, genel amaçlı olanlar karşısında üstünlük sağlamaktadır. Ayrıca, birkaç örneğin artırılması sürekli olarak performansı yükseltmekte; örneğin, DeepSeek-v3 F1 skorunu yaklaşık %4.8 artırmakta ve Qwen3-235B ise %6 yakınında bir yükseliş göstermektedir.

Sonuç

Yapay zeka sık sık örtük varsayımlarda bulunur. Bu yazıda incelediğimiz örneklerde olduğu gibi, modelin aşırı mantıksal çıkarımlarında önemli bir bilgi gözden kaçabilir. Bu tür hataların önüne geçmek için, kendini düzeltici iş akışlarının uygulanması ve bu yöntemlerin kurallar bazlı doğrulama ile birleştirilmesi gerekmektedir.

İnsanlar, pratik örneklerden ve uzman rehberliğinden en iyi şekilde öğrenirler. Kendini düzeltme akışı, insanlara çok iyi gelen “örnekle öğrenme” yaklaşımını kullanır ve kendini düzeltme süreci ile her iki yöntemi birleştirir. Eğer LLM tabanlı otomasyon sistemleri geliştiriyorsanız, kendini düzeltici bir yaklaşımı benimsemenizi öneririz. Bunun için de, kendi ticaret verinizi değerlendirerek, NVIDIA’nın ücretsiz bulut model API’lerinde başlayabilirsiniz veya NIM’i kullanarak yerel olarak dağıtabilirsiniz.

NVIDIA GTC Paris etkinliğine katılarak 10-12 Haziran tarihlerinde finansal hizmetlerde AI hakkında sektör liderlerinin konuşmalarını dinleyin. Bu tür sistemlerin üretimde uygulanması hakkında daha fazla bilgi edinmek için generatif AI uygulamaları konulu oturumlarımızdan birine katılın.