Ramalan Orang Ramai lwn. Random-Walk: Analisis Perbandingan Ketepatan Ramalan Kadar Pertukaran

1. Pengenalan

Ramalan dari platform ramalan orang ramai atas talian terbuka seperti Metaculus semakin digunakan oleh institusi seperti Bank Pusat Eropah, media berita, dan pembuat dasar sebagai sumber pandangan masa depan. Walau bagaimanapun, bukti berbanding ketepatannya dengan kaedah peramalan tradisional yang mantap adalah terhadap. Kajian ini menangani jurang ini dengan menilai ketepatan ramalan kadar pertukaran dari Metaculus berbanding penanda aras klasik yang terkenal sukar untuk dikalahkan: model random-walk tanpa drift. Penemuan ini mempunyai implikasi yang signifikan terhadap kredibiliti dan aplikasi kecerdasan sumber ramai dalam peramalan kewangan dan ekonomi.

2. Sorotan Literatur

2.1 Ramalan orang ramai

Konsep "kebijaksanaan orang ramai" mencadangkan bahawa ramalan terkumpul dari kumpulan yang pelbagai boleh menjadi lebih tepat daripada pakar individu. Platform seperti Metaculus dan Good Judgment Project mengoperasikan ini melalui pelbagai teknik pengutipan dan pengagregatan (cth., purata mudah, peraturan pemarkahan pasaran Bayesian). Walaupun bukti menunjukkan ramalan orang ramai mengatasi tekaan rawak (Petropoulos et al., 2022), perbandingan langsung dengan penanda aras statistik dalam domain kompleks seperti kewangan adalah jarang.

2.2 Peramalan Kadar Pertukaran

Meramal kadar pertukaran terkenal sukar. Teka-teki Meese dan Rogoff (1983) menetapkan bahawa model random-walk mudah sering mengatasi model ekonometrik canggih dalam ujian luar sampel untuk pasangan mata wang utama. Ini menjadikan random-walk sebagai penanda aras yang ketat dan dihormati untuk menilai sebarang pendekatan peramalan baru, termasuk ramalan orang ramai.

3. Data & Platform

Kajian ini menggunakan data ramalan kadar pertukaran dari platform Metaculus. Metaculus menganjurkan soalan di mana pengguna meramalkan kebarangkalian peristiwa masa depan. Ramalan berkaitan mengenai pergerakan kadar pertukaran (cth., EUR/USD, GBP/USD) diekstrak melalui API platform. Data kadar pertukaran sebenar yang sepadan untuk pengesahan diperoleh dari pangkalan data kewangan standard (cth., Bloomberg, Refinitiv).

4. Metodologi

Metodologi teras melibatkan penilaian ketepatan perbandingan. Ramalan orang ramai (ramalan terkumpul dari pengguna Metaculus) untuk tahap kadar pertukaran masa depan dibandingkan dengan ramalan yang dihasilkan oleh model random-walk tanpa drift. Ramalan random-walk hanyalah kadar pertukaran terakhir yang diperhatikan: $S_{t+1|t} = S_t$, di mana $S_t$ ialah kadar spot pada masa $t$. Ketepatan ramalan diukur menggunakan metrik ralat standard:

Min Ralat Mutlak (MAE): $MAE = \frac{1}{N}\sum_{i=1}^{N} |F_i - A_i|$
Punca Min Ralat Kuasa Dua (RMSE): $RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (F_i - A_i)^2}$

Di mana $F_i$ ialah ramalan dan $A_i$ ialah nilai sebenar. Kepentingan statistik perbezaan dalam ralat diuji menggunakan ujian Diebold-Mariano.

5. Keputusan

Keputusan utama adalah jelas dan mengejutkan: model random-walk tanpa drift memberikan ramalan kadar pertukaran yang jauh lebih tepat daripada ramalan terkumpul dari orang ramai Metaculus. RMSE dan MAE untuk ramalan random-walk secara konsisten lebih rendah merentasi pasangan mata wang dan ufuk ramalan yang dinilai. Ujian Diebold-Mariano mengesahkan bahawa keunggulan ini adalah signifikan secara statistik.

6. Perbincangan

Keputusan ini mencabar semangat tidak kritis yang kadang-kadang mengelilingi ramalan orang ramai. Walaupun orang ramai mungkin cemerlang dalam domain dengan masalah terikat dan boleh diuraikan (cth., menganggarkan berat lembu), pasaran kewangan yang dicirikan oleh hingar tinggi, ketidakstabilan, dan refleksiviti (di mana ramalan mempengaruhi hasil) mungkin mengatasi mekanisme "kebijaksanaan". Orang ramai mungkin menggabungkan isyarat palsu atau bias tingkah laku yang dielakkan oleh random-walk mudah tanpa isyarat.

7. Kesimpulan

Untuk peramalan kadar pertukaran, penanda aras statistik tradisional dan mudah (random-walk) mengatasi ramalan dari platform ramalan orang ramai atas talian yang canggih. Ini menekankan kepentingan penanda aras yang ketat sebelum menggunakan alat peramalan novel dalam aplikasi kritikal. Ia mencadangkan bahawa nilai ramalan orang ramai mungkin sangat khusus domain dan tidak sepatutnya dianggap umum kepada siri masa kewangan yang kompleks.

8. Analisis Asal & Kritikan Pakar

Pandangan Teras: Kertas kerja ini memberikan pemeriksaan realiti yang menenangkan dan perlu. Penemuan teras—bahawa model naif mengalahkan "kebijaksanaan orang ramai" dalam kewangan—tidak mengejutkan kepada kuant berpengalaman, tetapi ia adalah penawar penting kepada kempen publisiti. Ia mengukuhkan prinsip asas ekonometrik kewangan: mengalahkan random-walk adalah cawan suci, dan kebanyakan perkara gagal. Sumbangan sebenar kertas kerja ini adalah menggunakan penanda aras tanpa belas kasihan ini kepada metodologi moden yang hangat diperkatakan.

Aliran Logik: Logiknya kukuh dan klasik: takrifkan sasaran sukar (kadar FX), pilih penanda aras paling sukar (random-walk), dan jalankan perlumbaan kuda yang bersih. Penggunaan metrik ralat mantap (RMSE, MAE) dan ujian statistik (Diebold-Mariano) adalah teguh secara metodologi. Ia mengikuti templat terbukti kritikan Meese-Rogoff, secara efektif bertanya: "Adakah perkara baru ini menyelesaikan masalah lama yang tidak diselesaikan?" Jawapannya adalah jelas tidak.

Kekuatan & Kelemahan: Kekuatannya ialah kesederhanaan berdisiplin dan keputusan yang jelas. Kelemahan, yang diakui dalam perbincangan, ialah kebolehgeneralisasian yang terhadap. Ini adalah kajian satu domain (FX) pada satu platform (Metaculus). Ia tidak membatalkan ramalan orang ramai untuk, katakan, peristiwa geopolitik atau lengkung penerimaan teknologi, di mana data adalah terhadap dan model adalah lemah. Seperti yang ditunjukkan oleh penyelidikan dari Good Judgment Project, pengutipan berstruktur dengan peramal terlatih boleh mengatasi dalam bidang sedemikian (Tetlock & Gardner, 2015). Kertas kerja ini boleh menjadi lebih kuat dengan membuat hipotesis mengapa orang ramai gagal—adakah ia terlalu sesuai dengan hingar, kumpulan, atau kekurangan kepakaran domain dalam kalangan peserta?

Pandangan Boleh Tindak: Untuk pengamal: Jangan gantikan platform orang ramai secara membuta tuli untuk penanda aras mantap dalam kewangan kuantitatif. Gunakannya sebagai isyarat pelengkap, mungkin bertentangan. Untuk pembangun platform: Kajian ini adalah mandat untuk berinovasi. Bolehkah algoritma pengagregatan diperbaiki untuk menapis hingar? Patutkah platform memberi pemberat kepada peramal berdasarkan rekod prestasi khusus domain yang terbukti, serupa dengan konsep serum kebenaran Bayesian yang diterokai oleh Prelec (2004)? Untuk penyelidik: Replikasi ini! Uji kelas aset lain, platform lain (cth., Polymarket), dan model hibrid yang menggabungkan sentimen orang ramai dengan model statistik, seperti yang dicadangkan dalam peramalan wabak (McAndrew et al., 2024). Sempadan bukanlah orang ramai lwn. model, tetapi integrasi pintar mereka.

9. Butiran Teknikal & Kerangka Matematik

Model random-walk tanpa drift untuk siri masa $S_t$ ditakrifkan sebagai: $S_t = S_{t-1} + \epsilon_t$, di mana $\epsilon_t$ ialah istilah ralat hingar putih dengan $E[\epsilon_t]=0$ dan $Var(\epsilon_t)=\sigma^2$. Ramalan $h$-langkah ke hadapan hanyalah: $\hat{S}_{t+h|t} = S_t$. Model ini membayangkan bahawa ramalan terbaik nilai masa depan ialah nilai semasa, dan perubahan tidak dapat diramalkan.

Ramalan orang ramai dari Metaculus, $C_{t+h|t}$, ialah agregat (sering purata berwajaran) ramalan pengguna individu untuk kadar pertukaran pada masa $t+h$. Perbandingan bergantung pada pembezaan ralat ramalan: $d_t = e_{t}^{RW} - e_{t}^{C}$, di mana $e_{t}^{RW} = (S_{t+h} - \hat{S}_{t+h|t}^{RW})^2$ dan $e_{t}^{C} = (S_{t+h} - \hat{C}_{t+h|t})^2$. Statistik ujian Diebold-Mariano ialah: $DM = \frac{\bar{d}}{\sqrt{\widehat{Var}(\bar{d})/T}} \sim N(0,1)$, di mana $\bar{d}$ ialah min sampel pembezaan kerugian.

10. Keputusan Eksperimen & Penerangan Carta

Penerangan Carta (Dibayangkan berdasarkan keputusan): Carta bar bertajuk "Perbandingan Ralat Ramalan: Random-Walk lwn. Orang Ramai Metaculus." Paksi-x menyenaraikan pasangan mata wang berbeza (cth., EUR/USD, GBP/USD, USD/JPY). Dua set bar ditunjukkan untuk setiap pasangan: satu untuk RMSE Random-Walk (dalam biru) dan satu untuk RMSE Orang Ramai Metaculus (dalam merah). Merentasi semua pasangan, bar biru (Random-Walk) kelihatan lebih pendek daripada bar merah (Orang Ramai), menggambarkan secara kuantitatif ketepatan unggul random-walk. Plot garis sekunder yang ditindih pada carta menunjukkan siri masa pembezaan kerugian ($d_t$), yang berubah-ubah sekitar min positif, menunjukkan keunggulan berterusan random-walk. Tanda bintang di atas bar merah menandakan kepentingan statistik pada tahap 5% berdasarkan ujian Diebold-Mariano.

11. Kerangka Analisis: Contoh Praktikal

Kes: Menilai Isyarat FX "Berkekuatan AI" Baru. Seorang pengurus aset ditawarkan model ML baru yang mendakwa meramalkan EUR/USD. Bagaimana untuk menilainya?
Langkah 1 – Takrif Penanda Aras: Segera tetapkan random-walk ($F_{t+1} = S_t$) sebagai penanda aras utama. Jangan gunakan model kompleks lain sebagai satu-satunya penanda aras.
Langkah 2 – Pembahagian Data: Gunakan tempoh luar sampel yang panjang (cth., 3-5 tahun data harian tidak digunakan dalam latihan model ML).
Langkah 3 – Pengiraan Ralat: Kira RMSE untuk kedua-dua model ML dan ramalan random-walk sepanjang tempoh luar sampel.
Langkah 4 – Ujian Statistik: Lakukan ujian Diebold-Mariano pada pembezaan ralat kuasa dua. Adakah ralat lebih rendah model ML signifikan secara statistik (nilai-p < 0.05)?
Langkah 5 – Kepentingan Ekonomi: Walaupun signifikan secara statistik, adakah pengurangan ralat bermakna secara ekonomi untuk strategi dagangan selepas mengambil kira kos transaksi?
Kerangka ini, yang digunakan secara langsung dalam kertas kerja, adalah ujian litmus sejagat untuk sebarang tuntutan peramalan baru dalam kewangan.

12. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Model Peramalan Hibrid: Daripada pendekatan sama ada/atau, penyelidikan harus fokus pada menggabungkan secara optimum penilaian kebarangkalian sumber ramai dengan model siri masa tradisional. Purataan model Bayesian atau kaedah ensemble boleh memanfaatkan keupayaan orang ramai untuk menilai peristiwa jarang dan kekuatan model dalam menangkap ketekunan.
Reka Bentuk Platform Khusus Domain: Platform orang ramai masa depan untuk kewangan mungkin memerlukan ciri khusus: menyemai ramalan dengan output model kuantitatif, memberi pemberat kepada peramal berdasarkan prestasi lalu dalam soalan kewangan, dan secara eksplisit meminta taburan ramalan daripada anggaran titik untuk menangkap ketidakpastian dengan lebih baik.
Menerangkan Kegagalan/Kejayaan Orang Ramai: Lebih banyak penyelidikan diperlukan untuk menguraikan mengapa orang ramai gagal dalam sesetengah domain (FX) tetapi berjaya dalam yang lain (wabak). Adakah ia sifat data, kumpulan peserta, atau pembingkaian soalan? Ini memerlukan kerja antara disiplin yang menggabungkan psikologi, statistik, dan kepakaran domain.
Aplikasi dalam Bidang Bersebelahan: Pendekatan penanda aras harus diperluaskan ke domain lain "sukar diramal" seperti turun naik kripto, harga komoditi, atau kejutan penunjuk makroekonomi.

13. Rujukan

Lehmann, N. V. (2025). Forecasting skill of a crowd-prediction platform: A comparison of exchange rate forecasts. arXiv preprint arXiv:2312.09081v2.
Meese, R. A., & Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out of sample? Journal of International Economics, 14(1-2), 3-24.
Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
Prelec, D. (2004). A Bayesian truth serum for subjective data. Science, 306(5695), 462-466.
Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
McAndrew, T., Gibson, G., et al. (2024). Combining crowd-sourced forecasts with statistical models for epidemic predictions. PLOS Computational Biology.
Atanasov, P., et al. (2022). Distilling the wisdom of crowds: A primer on forecasting tournaments and prediction markets. In The Oxford Handbook of the Economics of Networks.