1. Giriş
Metaculus gibi açık çevrimiçi kitle-tahmin platformlarından gelen tahminler, Avrupa Merkez Bankası, haber medyası ve politika yapıcılar gibi kurumlar tarafından öngörü kaynağı olarak giderek daha fazla kullanılmaktadır. Ancak, bu tahminlerin yerleşik, geleneksel tahmin yöntemlerine kıyasla doğruluğu hakkında sınırlı kanıt bulunmaktadır. Bu çalışma, bu boşluğu Metaculus'tan gelen döviz kuru tahminlerinin doğruluğunu, klasik ve yenilmesi zor bir kıyaslama ölçütü olan sürüklenmesiz rastgele yürüyüş modeline karşı değerlendirerek ele almaktadır. Bulgular, finansal ve ekonomik tahminlerde kitle kaynaklı zekânın güvenilirliği ve uygulanması açısından önemli çıkarımlar taşımaktadır.
2. Literatür Taraması
2.1 Kitle-tahmini
"Kalabalığın bilgeliği" kavramı, çeşitli bir gruptan gelen toplu tahminlerin bireysel uzmanlardan daha doğru olabileceğini öne sürer. Metaculus ve Good Judgment Project gibi platformlar bunu çeşitli tahmin toplama ve birleştirme teknikleri (örneğin, basit ortalamalar, Bayesci piyasa puanlama kuralları) ile işlevsel hale getirir. Kanıtlar kitle tahminlerinin rastgele tahminlerden daha iyi performans gösterdiğini ortaya koysa da (Petropoulos vd., 2022), finans gibi karmaşık alanlarda istatistiksel kıyaslama ölçütleriyle doğrudan karşılaştırmalar nadirdir.
2.2 Döviz Kuru Tahmini
Döviz kurlarını tahmin etmek zorluğuyla ünlüdür. Meese ve Rogoff (1983) bulmacası, ana para çiftleri için örnek dışı testlerde basit rastgele yürüyüş modellerinin genellikle sofistike ekonometrik modellerden daha iyi performans gösterdiğini ortaya koymuştur. Bu durum, rastgele yürüyüşü, kitle-tahmini de dahil olmak üzere herhangi bir yeni tahmin yaklaşımını değerlendirmek için titiz ve saygın bir kıyaslama ölçütü haline getirmektedir.
3. Veri & Platform
Çalışma, Metaculus platformundan döviz kuru tahmin verilerini kullanmaktadır. Metaculus, kullanıcıların gelecekteki olayların olasılığını tahmin ettiği sorular barındırır. Döviz kuru hareketleriyle ilgili (ör. EUR/USD, GBP/USD) tahminler platformun API'si aracılığıyla çıkarılmıştır. Doğrulama için ilgili gerçek döviz kuru verileri standart finansal veritabanlarından (ör. Bloomberg, Refinitiv) temin edilmiştir.
4. Metodoloji
Temel metodoloji, karşılaştırmalı bir doğruluk değerlendirmesini içerir. Kitle tahmini (Metaculus kullanıcılarının toplu tahmini), gelecekteki bir döviz kuru seviyesi için, sürüklenmesiz rastgele yürüyüş modeli tarafından üretilen tahminle karşılaştırılır. Rastgele yürüyüş tahmini, basitçe son gözlemlenen döviz kurudur: $S_{t+1|t} = S_t$, burada $S_t$, $t$ zamanındaki spot kurudur. Tahmin doğruluğu standart hata ölçütleri kullanılarak ölçülür:
- Ortalama Mutlak Hata (MAE): $MAE = \frac{1}{N}\sum_{i=1}^{N} |F_i - A_i|$
- Kök Ortalama Kare Hata (RMSE): $RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (F_i - A_i)^2}$
Burada $F_i$ tahmin, $A_i$ ise gerçek değerdir. Hata farklarının istatistiksel anlamlılığı Diebold-Mariano testi kullanılarak test edilir.
5. Sonuçlar
Temel sonuç net ve çarpıcıdır: Sürüklenmesiz rastgele yürüyüş modeli, Metaculus kitlesinden gelen toplu tahminlerden istatistiksel olarak anlamlı derecede daha doğru döviz kuru tahminleri sağlamaktadır. Rastgele yürüyüş tahminlerinin RMSE ve MAE değerleri, değerlendirilen tüm para çiftleri ve tahmin ufuklarında tutarlı bir şekilde daha düşük çıkmıştır. Diebold-Mariano testi, bu üstünlüğün istatistiksel olarak anlamlı olduğunu doğrulamıştır.
6. Tartışma
Bu sonuç, kitle-tahmini etrafındaki bazen eleştirel olmayan coşkuyu sorgulamaktadır. Kalabalıklar sınırlı, parçalanabilir problemlerin olduğu alanlarda (örneğin, bir öküzün ağırlığını tahmin etmek) üstün olabilirken, yüksek gürültü, durağan olmama ve refleksivite (tahminlerin sonucu etkilemesi) ile karakterize edilen finansal piyasalar "bilgelik" mekanizmasını alt edebilir. Kitle, basit ve sinyalsiz rastgele yürüyüş modelinin kaçındığı yanıltıcı sinyalleri veya davranışsal önyargıları içeriyor olabilir.
7. Sonuç
Döviz kuru tahmini için, geleneksel ve basit bir istatistiksel kıyaslama ölçütü (rastgele yürüyüş), sofistike bir çevrimiçi kitle-tahmin platformunun tahminlerinden daha iyi performans göstermektedir. Bu durum, kritik uygulamalarda yeni tahmin araçlarını kullanmadan önce titiz kıyaslama yapmanın önemini vurgulamaktadır. Kitle-tahmininin değerinin alana özgü olabileceğini ve karmaşık finansal zaman serilerine genellenebileceğinin varsayılmaması gerektiğini göstermektedir.
8. Orijinal Analiz & Uzman Eleştirisi
Temel İçgörü: Makale, ayıltıcı ve gerekli bir gerçeklik kontrolü sunuyor. Finansta saf bir modelin "kalabalığın bilgeliğini" yenmesi şeklindeki temel bulgu, deneyimli nicel analistler için şaşırtıcı değil, ancak abartıya karşı hayati bir panzehirdir. Finansal ekonometrinin temel bir ilkesini pekiştiriyor: Rastgele yürüyüşü yenmek kutsal kâsedir ve çoğu şey bunu başaramaz. Makalenin gerçek katkısı, bu acımasız kıyaslama ölçütünü modern ve popüler bir metodolojiye uygulamasıdır.
Mantıksal Akış: Mantık sağlam ve klasiktir: zor bir hedef tanımla (döviz kurları), en zor kıyaslama ölçütünü seç (rastgele yürüyüş) ve temiz bir yarış yap. Yerleşik hata ölçütlerinin (RMSE, MAE) ve istatistiksel testlerin (Diebold-Mariano) kullanımı metodolojik olarak sağlamdır. Meese-Rogoff eleştirisinin kanıtlanmış şablonunu izleyerek etkili bir şekilde şu soruyu soruyor: "Bu yeni şey, eski, çözülmemiş sorunu çözüyor mu?" Cevap net bir şekilde hayır.
Güçlü & Zayıf Yönler: Gücü, disiplinli basitliği ve net sonucudur. Tartışmada kabul edilen zayıflık ise sınırlı genellenebilirliktir. Bu, bir platformda (Metaculus) bir alanın (döviz) çalışmasıdır. Kitle-tahminini, verinin seyrek ve modellerin zayıf olduğu jeopolitik olaylar veya teknoloji benimseme eğrileri gibi alanlar için geçersiz kılmaz. Good Judgment Project'ten gelen araştırmaların gösterdiği gibi, eğitimli tahmincilerle yapılan yapılandırılmış tahmin toplama bu gibi alanlarda daha iyi performans gösterebilir (Tetlock & Gardner, 2015). Makale, kalabalığın neden başarısız olduğuna dair hipotezler geliştirerek daha güçlü olabilirdi—gürültüye aşırı uyum mu, sürü davranışı mı yoksa katılımcılar arasında alan uzmanlığı eksikliği mi?
Uygulanabilir İçgörüler: Uygulayıcılar için: Nicel finansmanda yerleşik kıyaslama ölçütlerinin yerine körü körüne kitle platformlarını koymayın. Onları tamamlayıcı, muhtemelen karşıt bir sinyal olarak kullanın. Platform geliştiricileri için: Bu çalışma bir yenilik çağrısıdır. Toplama algoritmaları gürültüyü filtrelemek için iyileştirilebilir mi? Platformlar, Prelec (2004) tarafından araştırılan Bayesci doğruluk serumu kavramlarına benzer şekilde, tahmincileri kanıtlanmış alana özgü geçmiş performanslarına göre ağırlıklandırmalı mı? Araştırmacılar için: Bunu tekrarlayın! Diğer varlık sınıflarını, diğer platformları (ör. Polymarket) ve kitle algısını istatistiksel modellerle birleştiren hibrit modelleri, salgın tahmininde önerildiği gibi test edin (McAndrew vd., 2024). Sınır, kitleye karşı model değil, onların akıllı entegrasyonudur.
9. Teknik Detaylar & Matematiksel Çerçeve
$S_t$ zaman serisi için sürüklenmesiz rastgele yürüyüş modeli şu şekilde tanımlanır: $S_t = S_{t-1} + \epsilon_t$, burada $\epsilon_t$, $E[\epsilon_t]=0$ ve $Var(\epsilon_t)=\sigma^2$ olan bir beyaz gürültü hata terimidir. $h$-adım ileri tahmin basitçe: $\hat{S}_{t+h|t} = S_t$ şeklindedir. Bu model, gelecekteki değerin en iyi tahmininin mevcut değer olduğunu ve değişimlerin tahmin edilemez olduğunu ima eder.
Metaculus'tan gelen kitle tahmini, $C_{t+h|t}$, $t+h$ zamanındaki döviz kuru için bireysel kullanıcı tahminlerinin bir toplamıdır (genellikle ağırlıklı bir ortalama). Karşılaştırma, tahmin hata farkına dayanır: $d_t = e_{t}^{RW} - e_{t}^{C}$, burada $e_{t}^{RW} = (S_{t+h} - \hat{S}_{t+h|t}^{RW})^2$ ve $e_{t}^{C} = (S_{t+h} - \hat{C}_{t+h|t})^2$. Diebold-Mariano test istatistiği: $DM = \frac{\bar{d}}{\sqrt{\widehat{Var}(\bar{d})/T}} \sim N(0,1)$ şeklindedir, burada $\bar{d}$ kayıp farkının örneklem ortalamasıdır.
10. Deneysel Sonuçlar & Grafik Açıklaması
Grafik Açıklaması (Sonuçlara dayalı hayali): "Tahmin Hata Karşılaştırması: Rastgele Yürüyüş vs. Metaculus Kitlesi" başlıklı bir çubuk grafik. X ekseni farklı para çiftlerini listeler (ör. EUR/USD, GBP/USD, USD/JPY). Her çift için iki takım çubuk gösterilir: biri Rastgele Yürüyüş RMSE (mavi) ve biri Metaculus Kitlesi RMSE (kırmızı) için. Tüm çiftlerde, mavi çubuklar (Rastgele Yürüyüş) kırmızı çubuklardan (Kitle) görünür şekilde daha kısadır ve rastgele yürüyüşün üstün doğruluğunu nicel olarak gösterir. Grafiğin üzerine bindirilmiş ikincil bir çizgi grafiği, kayıp farkının ($d_t$) zaman serisini gösterir ve bu, pozitif bir ortalama etrafında dalgalanarak rastgele yürüyüşün kalıcı üstünlüğünü işaret eder. Kırmızı çubukların üzerindeki yıldız işaretleri, Diebold-Mariano testine dayalı %5 seviyesinde istatistiksel anlamlılığı belirtir.
11. Analiz Çerçevesi: Pratik Bir Örnek
Vaka: Yeni bir "Yapay Zeka Destekli" Döviz Sinyalinin Değerlendirilmesi. Bir varlık yöneticisine EUR/USD'yi tahmin ettiğini iddia eden yeni bir Makine Öğrenimi modeli sunuluyor. Nasıl değerlendirilmeli?
Adım 1 – Kıyaslama Ölçütünü Tanımla: Hemen rastgele yürüyüşü ($F_{t+1} = S_t$) birincil kıyaslama ölçütü olarak belirle. Tek kıyaslama ölçütü olarak başka bir karmaşık model kullanma.
Adım 2 – Veri Bölme: Uzun bir örnek dışı dönem kullan (ör. ML modelinin eğitiminde kullanılmayan 3-5 yıllık günlük veri).
Adım 3 – Hata Hesaplama: Örnek dışı dönem boyunca hem ML modeli hem de rastgele yürüyüş tahmini için RMSE hesapla.
Adım 4 – İstatistiksel Test: Kare hata farkları üzerinde bir Diebold-Mariano testi yap. ML modelinin daha düşük hatası istatistiksel olarak anlamlı mı (p-değeri < 0.05)?
Adım 5 – Ekonomik Anlamlılık: İstatistiksel olarak anlamlı olsa bile, işlem maliyetleri hesaba katıldıktan sonra hata azalması bir ticaret stratejisi için ekonomik olarak anlamlı mı?
Bu çerçeve, makalede doğrudan uygulanmış olup, finans alanındaki herhangi bir yeni tahmin iddiası için evrensel bir turnusol testidir.
12. Gelecek Uygulamalar & Araştırma Yönleri
- Hibrit Tahmin Modelleri: Ya/veya yaklaşımı yerine, araştırmalar kitle kaynaklı olasılık değerlendirmelerini geleneksel zaman serisi modelleriyle en uygun şekilde birleştirmeye odaklanmalıdır. Bayesci model ortalaması veya topluluk yöntemleri, kalabalığın nadir olayları değerlendirme yeteneğini ve modelin kalıcılığı yakalama gücünü birleştirebilir.
- Alana Özgü Platform Tasarımı: Finans için gelecekteki kitle platformlarının özelleştirilmiş özelliklere ihtiyacı olabilir: tahminleri nicel model çıktılarıyla beslemek, tahmincileri finansal sorulardaki geçmiş performanslarına göre ağırlıklandırmak ve belirsizliği daha iyi yakalamak için nokta tahminleri yerine açıkça tahmini dağılımlar sormak.
- Kitle Başarısızlığı/Başarısını Açıklama: Kalabalıkların bazı alanlarda (döviz) neden başarısız olduğunu, diğerlerinde (salgınlar) ise başarılı olduğunu ayrıştırmak için daha fazla araştırmaya ihtiyaç vardır. Bu, verinin doğası mı, katılımcı havuzu mu yoksa soru çerçevesi mi? Bu, psikoloji, istatistik ve alan uzmanlığını harmanlayan disiplinler arası çalışma gerektirir.
- Komşu Alanlarda Uygulama: Kıyaslama yaklaşımı, kripto para birimi oynaklığı, emtia fiyatları veya makroekonomik gösterge sürprizleri gibi diğer "tahmin edilmesi zor" alanlara genişletilmelidir.
13. Kaynaklar
- Lehmann, N. V. (2025). Forecasting skill of a crowd-prediction platform: A comparison of exchange rate forecasts. arXiv preprint arXiv:2312.09081v2.
- Meese, R. A., & Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out of sample? Journal of International Economics, 14(1-2), 3-24.
- Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
- Prelec, D. (2004). A Bayesian truth serum for subjective data. Science, 306(5695), 462-466.
- Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
- McAndrew, T., Gibson, G., et al. (2024). Combining crowd-sourced forecasts with statistical models for epidemic predictions. PLOS Computational Biology.
- Atanasov, P., et al. (2022). Distilling the wisdom of crowds: A primer on forecasting tournaments and prediction markets. In The Oxford Handbook of the Economics of Networks.