群眾預測 vs. 隨機漫步：匯率預測準確度之比較分析

1. 緒論

如歐洲中央銀行、新聞媒體和政策制定者等機構，越來越多地使用像 Metaculus 這類開放式線上群眾預測平台的預測作為前瞻性資訊來源。然而，關於這些預測與既有的傳統預測方法相比，其相對準確性的證據有限。本研究透過評估 Metaculus 的匯率預測準確性，並與一個經典且眾所周知難以擊敗的基準——無漂移隨機漫步模型——進行比較，來彌補此一研究缺口。此研究結果對於群眾智慧在金融與經濟預測中的可信度與應用具有重要意義。

2. 文獻回顧

2.1 群眾預測

「群眾的智慧」概念認為，來自多元群體的聚合預測可能比個別專家更為準確。Metaculus 和 Good Judgment Project 等平台透過各種誘導與聚合技術（例如簡單平均、貝氏市場評分規則）來實踐此概念。雖然有證據顯示群眾預測優於隨機猜測（Petropoulos 等人，2022），但在金融等複雜領域中，與統計基準的直接比較仍相當稀少。

2.2 匯率預測

預測匯率是出了名的困難。Meese 和 Rogoff（1983）提出的難題確立了，對於主要貨幣對的樣本外測試，簡單的隨機漫步模型通常勝過複雜的計量經濟模型。這使得隨機漫步成為評估任何新預測方法（包括群眾預測）的嚴謹且受尊敬的基準。

3. 資料與平台

本研究使用來自 Metaculus 平台的匯率預測資料。Metaculus 平台提供使用者預測未來事件機率的問題。本研究透過該平台的 API 擷取了與匯率變動（例如 EUR/USD、GBP/USD）相關的預測。用於驗證的相應實際匯率資料則來自標準金融資料庫（例如 Bloomberg、Refinitiv）。

4. 研究方法

核心研究方法涉及比較性準確度評估。將群眾對未來匯率水準的預測（來自 Metaculus 使用者的聚合預測）與 無漂移隨機漫步 模型產生的預測進行比較。隨機漫步預測僅為最後觀察到的匯率：$S_{t+1|t} = S_t$，其中 $S_t$ 是時間 $t$ 的即期匯率。預測準確度使用標準誤差指標衡量：

平均絕對誤差（MAE）： $MAE = \frac{1}{N}\sum_{i=1}^{N} |F_i - A_i|$
均方根誤差（RMSE）： $RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (F_i - A_i)^2}$

其中 $F_i$ 為預測值，$A_i$ 為實際值。誤差差異的統計顯著性使用 Diebold-Mariano 檢定進行測試。

5. 結果

關鍵結果清晰且引人注目：無漂移隨機漫步模型提供的匯率預測，其準確度顯著高於 Metaculus 群眾的聚合預測。 在所評估的所有貨幣對和預測期間內，隨機漫步預測的 RMSE 和 MAE 均持續較低。Diebold-Mariano 檢定證實了此優越性具有統計顯著性。

6. 討論

此結果挑戰了有時圍繞群眾預測的不加批判的熱情。雖然群眾可能在問題範圍有限、可分解的領域表現出色（例如估計一頭牛的重量），但以高噪音、非平穩性和反身性（預測會影響結果）為特徵的金融市場，可能會壓倒「智慧」機制。群眾可能納入了虛假訊號或行為偏誤，而簡單、無訊號的隨機漫步模型則避免了這些問題。

7. 結論

對於匯率預測，傳統且簡單的統計基準（隨機漫步）勝過了複雜的線上群眾預測平台的預測。這強調了在關鍵應用中部署新穎預測工具之前，進行嚴謹基準測試的重要性。這也表明群眾預測的價值可能高度依賴於特定領域，不應假定其能推廣到複雜的金融時間序列。

8. 原始分析與專家評論

核心見解： 本文提供了一個發人深省且必要的現實檢驗。核心發現——一個簡單模型在金融領域擊敗了「群眾的智慧」——對經驗豐富的量化分析師來說並不意外，但卻是對過度炒作的一劑重要解藥。它強化了金融計量經濟學的一個基本原則：擊敗隨機漫步是聖杯，而大多數方法都失敗了。本文的真正貢獻在於將這個嚴苛的基準應用於一種現代、熱門的方法論。

邏輯流程： 邏輯合理且經典：定義一個困難的目標（外匯匯率），選擇最嚴格的基準（隨機漫步），並進行一場乾淨的競賽。使用既定的誤差指標（RMSE、MAE）和統計檢定（Diebold-Mariano）在方法論上是穩健的。它遵循了 Meese-Rogoff 批判的成熟範本，有效地提問：「這個新事物是否解決了舊的、未解決的問題？」答案顯然是否定的。

優點與缺陷： 其優點在於紀律嚴明的簡潔性和清晰的結果。討論中承認的缺陷是普遍性有限。這是針對一個平台（Metaculus）在一個領域（外匯）的研究。它並未否定群眾預測在其他領域（例如地緣政治事件或技術採用曲線）的價值，在那些領域資料稀少且模型薄弱。正如 Good Judgment Project 的研究所示，對受過訓練的預測者進行結構化誘導，在這些領域可以表現更佳（Tetlock & Gardner, 2015）。本文若能對群眾為何失敗提出假設——是過度擬合噪音、從眾效應，還是參與者缺乏領域專業知識？——將會更強而有力。

可行建議： 對於實務工作者：切勿盲目地用群眾平台取代量化金融中既定的基準。應將其作為互補的、可能是反向的訊號來使用。對於平台開發者：本研究是一項創新的要求。能否改進聚合演算法以過濾噪音？平台是否應根據經過驗證的特定領域過往記錄來加權預測者，類似 Prelec（2004）探討的貝氏真相血清概念？對於研究人員：複製此研究！測試其他資產類別、其他平台（例如 Polymarket），以及結合群眾情緒與統計模型的混合模型，正如流行病預測中所建議的那樣（McAndrew 等人，2024）。前沿領域並非群眾 vs. 模型，而是它們的智慧整合。

9. 技術細節與數學框架

時間序列 $S_t$ 的無漂移隨機漫步模型定義為：$S_t = S_{t-1} + \epsilon_t$，其中 $\epsilon_t$ 是一個白噪音誤差項，滿足 $E[\epsilon_t]=0$ 且 $Var(\epsilon_t)=\sigma^2$。$h$ 期預測簡單地為：$\hat{S}_{t+h|t} = S_t$。此模型意味著未來值的最佳預測就是當前值，變化是不可預測的。

來自 Metaculus 的群眾預測 $C_{t+h|t}$，是對時間 $t+h$ 匯率的個別使用者預測的聚合（通常是加權平均）。比較的關鍵在於預測誤差差異：$d_t = e_{t}^{RW} - e_{t}^{C}$，其中 $e_{t}^{RW} = (S_{t+h} - \hat{S}_{t+h|t}^{RW})^2$ 且 $e_{t}^{C} = (S_{t+h} - \hat{C}_{t+h|t})^2$。Diebold-Mariano 檢定統計量為：$DM = \frac{\bar{d}}{\sqrt{\widehat{Var}(\bar{d})/T}} \sim N(0,1)$，其中 $\bar{d}$ 是損失差異的樣本平均數。

10. 實驗結果與圖表說明

圖表說明（根據結果想像）： 一個標題為「預測誤差比較：隨機漫步 vs. Metaculus 群眾」的長條圖。X 軸列出不同的貨幣對（例如 EUR/USD、GBP/USD、USD/JPY）。每個貨幣對顯示兩組長條：一組代表隨機漫步的 RMSE（藍色），另一組代表 Metaculus 群眾的 RMSE（紅色）。在所有貨幣對中，藍色長條（隨機漫步）明顯短於紅色長條（群眾），量化地展示了隨機漫步的優越準確性。圖表上疊加的一條次要折線圖顯示了損失差異（$d_t$）的時間序列，其圍繞一個正的平均值波動，表明隨機漫步具有持續的優越性。紅色長條上方的星號表示根據 Diebold-Mariano 檢定在 5% 水準上的統計顯著性。

11. 分析框架：實務範例

案例：評估一個新的「AI 驅動」外匯訊號。 一位資產經理被推銷一個聲稱能預測 EUR/USD 的新機器學習模型。如何評估它？
步驟 1 – 定義基準： 立即將隨機漫步（$F_{t+1} = S_t$）設為主要基準。不要使用另一個複雜模型作為唯一基準。
步驟 2 – 資料分割： 使用較長的樣本外期間（例如，未用於訓練機器學習模型的 3-5 年日資料）。
步驟 3 – 誤差計算： 計算機器學習模型和隨機漫步預測在樣本外期間的 RMSE。
步驟 4 – 統計檢定： 對平方誤差差異進行 Diebold-Mariano 檢定。機器學習模型的較低誤差是否具有統計顯著性（p 值 < 0.05）？
步驟 5 – 經濟顯著性： 即使具有統計顯著性，在考慮交易成本後，誤差的減少對於交易策略是否具有經濟意義？
本文直接應用的這個框架，是檢驗金融領域任何新預測主張的通用試金石。

12. 未來應用與研究方向

混合預測模型： 與其採取非此即彼的方法，研究應聚焦於如何最優地結合群眾來源的機率評估與傳統時間序列模型。貝氏模型平均或集成方法可以發揮群眾評估罕見事件的能力，以及模型捕捉持續性的優勢。
領域特定平台設計： 未來針對金融的群眾平台可能需要特殊功能：以量化模型輸出作為預測的起點、根據預測者在金融問題上的過往表現進行加權，以及明確要求預測分佈而非點估計，以更好地捕捉不確定性。
解釋群眾的失敗/成功： 需要更多研究來分解群眾為何在某些領域（外匯）失敗，而在其他領域（流行病）成功。是資料的性質、參與者群體，還是問題的框架所致？這需要結合心理學、統計學和領域專業知識的跨學科工作。
在相鄰領域的應用： 此基準測試方法應擴展到其他「難以預測」的領域，如加密貨幣波動率、商品價格或宏觀經濟指標意外。

13. 參考文獻

Lehmann, N. V. (2025). Forecasting skill of a crowd-prediction platform: A comparison of exchange rate forecasts. arXiv preprint arXiv:2312.09081v2.
Meese, R. A., & Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out of sample? Journal of International Economics, 14(1-2), 3-24.
Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
Prelec, D. (2004). A Bayesian truth serum for subjective data. Science, 306(5695), 462-466.
Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
McAndrew, T., Gibson, G., et al. (2024). Combining crowd-sourced forecasts with statistical models for epidemic predictions. PLOS Computational Biology.
Atanasov, P., et al. (2022). Distilling the wisdom of crowds: A primer on forecasting tournaments and prediction markets. In The Oxford Handbook of the Economics of Networks.