群眾預測 vs 隨機漫步：匯率預測準確度比較分析

1. 引言

好似Metaculus呢類開放式網上群眾預測平台嘅預測，越來越多機構好似歐洲中央銀行、新聞媒體同政策制定者，都會用嚟作為前瞻性資訊來源。不過，關於佢哋同傳統預測方法相比嘅準確度，證據仍然有限。本研究就係針對呢個缺口，評估Metaculus嘅匯率預測準確度，同一個經典且出名難被打敗嘅基準——無漂移隨機漫步模型——進行比較。呢啲發現對於群眾智慧喺金融同經濟預測方面嘅可信度同應用，有重要嘅啟示。

2. 文獻回顧

2.1 群眾預測

「群眾智慧」嘅概念認為，嚟自多元化群體嘅聚合預測，可以比個別專家更準確。好似Metaculus同Good Judgment Project呢類平台，就透過唔同嘅誘導同聚合技術（例如簡單平均、貝葉斯市場評分規則）將呢個概念實踐。雖然有證據顯示群眾預測表現好過隨機猜測（Petropoulos等人，2022），但喺金融呢類複雜領域，直接同統計基準比較嘅研究仍然好少。

2.2 匯率預測

預測匯率係出名困難嘅。Meese同Rogoff（1983）提出嘅謎題確立咗，喺主要貨幣對嘅樣本外測試中，簡單嘅隨機漫步模型往往表現好過複雜嘅計量經濟模型。呢個令隨機漫步成為評估任何新預測方法（包括群眾預測）嘅一個嚴格且受尊重嘅基準。

3. 數據與平台

本研究使用Metaculus平台嘅匯率預測數據。Metaculus會發布問題，讓用戶預測未來事件嘅發生概率。有關匯率變動（例如歐元/美元、英鎊/美元）嘅相關預測，係透過平台嘅API提取。用於驗證嘅相應實際匯率數據，則嚟自標準金融數據庫（例如彭博、路孚特）。

4. 研究方法

核心研究方法係一個比較準確度評估。將群眾對未來匯率水平嘅預測（即Metaculus用戶嘅聚合預測），同無漂移隨機漫步模型產生嘅預測進行比較。隨機漫步預測簡單嚟講就係最後觀察到嘅匯率：$S_{t+1|t} = S_t$，其中$S_t$係時間$t$嘅即期匯率。預測準確度使用標準誤差指標衡量：

平均絕對誤差（MAE）： $MAE = \frac{1}{N}\sum_{i=1}^{N} |F_i - A_i|$
均方根誤差（RMSE）： $RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (F_i - A_i)^2}$

其中$F_i$係預測值，$A_i$係實際值。誤差差異嘅統計顯著性使用Diebold-Mariano檢驗進行測試。

5. 結果

關鍵結果清晰且令人驚訝：無漂移隨機漫步模型提供嘅匯率預測，顯著比Metaculus群眾嘅聚合預測更準確。喺評估嘅所有貨幣對同預測時段內，隨機漫步預測嘅RMSE同MAE都持續較低。Diebold-Mariano檢驗證實咗呢種優越性具有統計顯著性。

6. 討論

呢個結果挑戰咗有時圍繞群眾預測嘅盲目熱情。雖然群眾可能喺問題有界限、可分解嘅領域表現出色（例如估計一頭牛嘅重量），但以高噪音、非平穩性同反身性（預測會影響結果）為特徵嘅金融市場，可能會壓倒「智慧」機制。群眾可能吸收咗虛假訊號或行為偏見，而簡單、無訊號嘅隨機漫步模型則避免咗呢啲問題。

7. 結論

對於匯率預測，一個傳統而簡單嘅統計基準（隨機漫步）表現好過一個複雜嘅網上群眾預測平台嘅預測。呢點強調咗喺關鍵應用中部署新穎預測工具之前，進行嚴格基準測試嘅重要性。亦都表明群眾預測嘅價值可能高度依賴於特定領域，唔應該假設佢可以推廣到複雜嘅金融時間序列。

8. 原創分析與專家評論

核心見解： 呢篇論文提供咗一個令人清醒、必要嘅現實檢驗。核心發現——一個簡單模型喺金融領域擊敗「群眾智慧」——對於經驗豐富嘅量化分析師嚟講並唔出奇，但係對於過度炒作嚟講係一劑重要嘅解藥。佢強化咗金融計量經濟學嘅一個基本原則：打敗隨機漫步係終極目標，而大多數方法都失敗。論文真正嘅貢獻在於將呢個嚴格基準應用於一種現代、熱門嘅方法論。

邏輯流程： 邏輯合理且經典：定義一個困難目標（外匯匯率），選擇最嚴格嘅基準（隨機漫步），然後進行一場乾淨嘅比賽。使用既定嘅誤差指標（RMSE、MAE）同統計檢驗（Diebold-Mariano）喺方法論上係穩健嘅。佢遵循Meese-Rogoff批判嘅成熟模板，有效咁問：「呢個新事物解決咗舊嘅、未解決嘅問題嗎？」答案係明確嘅否定。

優點與缺陷： 優點係其紀律性嘅簡單同清晰結果。缺陷（喺討論部分已承認）係有限嘅可推廣性。呢個係針對一個領域（外匯）同一個平台（Metaculus）嘅研究。佢並唔否定群眾預測喺其他領域嘅價值，例如地緣政治事件或技術採用曲線，嗰度數據稀疏且模型薄弱。正如Good Judgment Project嘅研究所顯示，對受過訓練嘅預測者進行結構化誘導，可以喺呢類領域表現更佳（Tetlock & Gardner，2015）。論文可以更強有力嘅地方在於假設群眾點解失敗——係過度擬合噪音、羊群效應，定係參與者缺乏領域專業知識？

可行建議： 對於從業者：唔好盲目用群眾平台取代量化金融中嘅既定基準。將佢哋作為一個補充性、可能係逆向嘅訊號嚟使用。對於平台開發者：呢項研究係一個創新嘅指令。聚合算法可以改進以過濾噪音嗎？平台應否根據已證實嘅特定領域往績記錄對預測者進行加權，類似Prelec（2004）探討嘅貝葉斯真相血清概念？對於研究人員：複製呢個研究！測試其他資產類別、其他平台（例如Polymarket），以及結合群眾情緒同統計模型嘅混合模型，正如流行病預測中所建議嘅（McAndrew等人，2024）。前沿唔係群眾 vs 模型，而係佢哋嘅智能整合。

9. 技術細節與數學框架

時間序列$S_t$嘅無漂移隨機漫步模型定義為：$S_t = S_{t-1} + \epsilon_t$，其中$\epsilon_t$係一個白噪音誤差項，滿足$E[\epsilon_t]=0$同$Var(\epsilon_t)=\sigma^2$。$h$步超前預測簡單嚟講係：$\hat{S}_{t+h|t} = S_t$。呢個模型意味住未來值嘅最佳預測就係現值，變化係不可預測嘅。

嚟自Metaculus嘅群眾預測$C_{t+h|t}$，係個別用戶對時間$t+h$匯率預測嘅聚合（通常係加權平均）。比較嘅關鍵在於預測誤差差異：$d_t = e_{t}^{RW} - e_{t}^{C}$，其中$e_{t}^{RW} = (S_{t+h} - \hat{S}_{t+h|t}^{RW})^2$，$e_{t}^{C} = (S_{t+h} - \hat{C}_{t+h|t})^2$。Diebold-Mariano檢驗統計量係：$DM = \frac{\bar{d}}{\sqrt{\widehat{Var}(\bar{d})/T}} \sim N(0,1)$，其中$\bar{d}$係損失差異嘅樣本平均值。

10. 實驗結果與圖表描述

圖表描述（根據結果想像）： 一個標題為「預測誤差比較：隨機漫步 vs Metaculus群眾」嘅柱狀圖。X軸列出唔同貨幣對（例如歐元/美元、英鎊/美元、美元/日圓）。每個貨幣對顯示兩組柱：一組係隨機漫步RMSE（藍色），另一組係Metaculus群眾RMSE（紅色）。喺所有貨幣對中，藍色柱（隨機漫步）明顯短過紅色柱（群眾），量化咗隨機漫步嘅優越準確度。圖表上疊加嘅輔助線圖顯示損失差異（$d_t$）嘅時間序列，佢圍繞一個正平均值波動，表明隨機漫步持續優越。紅色柱上方嘅星號表示根據Diebold-Mariano檢驗，喺5%水平上具有統計顯著性。

11. 分析框架：實用例子

案例：評估一個新嘅「AI驅動」外匯訊號。 一位基金經理被推銷一個聲稱可以預測歐元/美元嘅新ML模型。點樣評估佢？
步驟1 – 定義基準： 立即將隨機漫步（$F_{t+1} = S_t$）設為主要基準。唔好用另一個複雜模型作為唯一基準。
步驟2 – 數據分割： 使用一個長嘅樣本外時期（例如，3-5年嘅日數據，唔用於訓練ML模型）。
步驟3 – 誤差計算： 計算ML模型同隨機漫步預測喺樣本外時期嘅RMSE。
步驟4 – 統計檢驗： 對平方誤差差異進行Diebold-Mariano檢驗。ML模型較低嘅誤差係咪具有統計顯著性（p值 < 0.05）？
步驟5 – 經濟意義： 即使具有統計顯著性，喺考慮交易成本後，誤差減少對於交易策略係咪具有經濟意義？
呢個框架，直接應用於論文中，係對金融領域任何新預測聲稱嘅一個通用試金石。

12. 未來應用與研究方向

混合預測模型： 與其採取非此即彼嘅方法，研究應該聚焦於如何最優化咁結合群眾來源嘅概率評估同傳統時間序列模型。貝葉斯模型平均或集成方法可以利用群眾評估罕見事件嘅能力，以及模型捕捉持續性嘅優勢。
特定領域平台設計： 未來針對金融嘅群眾平台可能需要專門功能：用定量模型輸出作為預測種子、根據預測者喺金融問題上嘅過往表現進行加權、明確要求預測分佈而非點估計以更好捕捉不確定性。
解釋群眾失敗/成功： 需要更多研究去分解點解群眾喺某啲領域（外匯）失敗，但喺其他領域（流行病）成功。係數據性質、參與者群體，定係問題框架嘅原因？呢個需要結合心理學、統計學同領域專業知識嘅跨學科工作。
喺相鄰領域嘅應用： 呢種基準測試方法應該擴展到其他「難以預測」嘅領域，例如加密貨幣波動性、商品價格或宏觀經濟指標意外。

13. 參考文獻

Lehmann, N. V. (2025). Forecasting skill of a crowd-prediction platform: A comparison of exchange rate forecasts. arXiv preprint arXiv:2312.09081v2.
Meese, R. A., & Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out of sample? Journal of International Economics, 14(1-2), 3-24.
Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
Prelec, D. (2004). A Bayesian truth serum for subjective data. Science, 306(5695), 462-466.
Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
McAndrew, T., Gibson, G., et al. (2024). Combining crowd-sourced forecasts with statistical models for epidemic predictions. PLOS Computational Biology.
Atanasov, P., et al. (2022). Distilling the wisdom of crowds: A primer on forecasting tournaments and prediction markets. In The Oxford Handbook of the Economics of Networks.