運用LSTM與機器學習提升美元/孟加拉塔卡匯率預測

1. 緒論

準確預測美元兌孟加拉塔卡（USD/BDT）匯率，對於孟加拉這個依賴進口的經濟體至關重要，它影響著貿易收支、通貨膨脹與外匯存底管理。傳統的統計模型往往無法捕捉新興市場貨幣特有的非線性、複雜模式，特別是在經濟不確定性時期。本研究透過開發與評估先進的機器學習模型，特別是長短期記憶（LSTM）神經網路與梯度提升分類器（GBC），並使用2018年至2023年的歷史資料，來彌補此一缺口。本研究旨在為金融風險緩解與政策制定提供穩健的工具。

2. 文獻回顧

深度學習，特別是LSTM網路，在金融時間序列預測領域已展現顯著潛力。由Hochreiter & Schmidhuber開創，旨在解決循環神經網路（RNN）梯度消失問題的LSTM，擅長捕捉長期依賴關係。後續的改進，如遺忘門（Gers等人），增強了模型對波動性的適應能力。實證研究，例如針對USD/INR的研究，顯示LSTM在方向性準確度上比傳統ARIMA模型高出18–22%。然而，專門針對USD/BDT匯率對，並考量孟加拉獨特的管理浮動匯率制度與當地宏觀經濟衝擊的研究仍然有限。本研究在此新興領域的基礎上進行延伸。

3. 方法論與資料

3.1 資料收集與前處理

本研究從Yahoo Finance取得2018年1月至2023年12月的每日USD/BDT匯率資料。資料集經過清理，並建構了標準化日報酬率、簡單移動平均線（SMA）和相對強弱指數（RSI）等特徵，以捕捉市場趨勢與波動性。資料被分割為訓練集（80%）與測試集（20%）。

3.2 LSTM模型架構

核心預測模型為堆疊式LSTM網路。其架構通常包含：

輸入層：歷史價格/特徵資料序列。
LSTM層：兩層或更多層，並使用Dropout進行正則化以防止過度擬合。
密集層：一個全連接層用於輸出。
輸出層：一個神經元用於預測下一期的匯率。

模型使用Adam最佳化器進行訓練，並以均方誤差（MSE）作為損失函數。

3.3 梯度提升分類器

針對方向性預測（上漲/下跌），本研究實作了梯度提升分類器（GBC）。它透過整合多個弱預測模型（決策樹）來建立一個強分類器，並透過迭代學習專注於最小化預測誤差。

LSTM準確率

99.449%

LSTM RMSE

0.9858

獲利交易比率 (GBC)

40.82%

ARIMA RMSE (基準)

1.342

4. 實驗結果與分析

4.1 效能指標

LSTM模型取得了卓越的成果：準確率達99.449%，均方根誤差（RMSE）為0.9858，測試損失為0.8523。此效能顯著優於傳統的ARIMA模型（其RMSE為1.342）。高準確率顯示LSTM在建模USD/BDT匯率的複雜時間動態方面具有卓越能力。

4.2 回溯測試與交易模擬

梯度提升分類器在一個初始資本為10,000美元的交易模擬中進行了回溯測試。在49筆交易中，模型達到了40.82%的獲利交易比率。然而，模擬結果導致淨虧損20,653.25美元。這凸顯了一個關鍵見解：高的方向性準確率並不會自動轉化為獲利的交易策略，因為交易成本、滑價以及風險管理（PDF中未提及停損/停利水準）扮演著決定性的角色。

圖表描述（隱含）： 折線圖可能會顯示歷史USD/BDT匯率從約0.012（2018年）下降至約0.009（2023年）。第二張圖表則會繪製GBC交易策略的累計損益，顯示初期獲利後，出現急劇回撤，最終導致淨虧損。

5. 技術深度解析

LSTM有效性的核心在於其細胞狀態與門控機制。時間步$t$的LSTM單元關鍵方程式如下：

遺忘門： $f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
輸入門： $i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$
候選細胞狀態： $\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$
細胞狀態更新： $C_t = f_t * C_{t-1} + i_t * \tilde{C}_t$
輸出門： $o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$
隱藏狀態輸出： $h_t = o_t * \tanh(C_t)$

其中$\sigma$為sigmoid函數，$*$表示元素乘法，$W$和$b$為權重與偏差，$x_t$為輸入，$h_t$為隱藏狀態，$C_t$為細胞狀態。此架構使模型能夠在長序列中選擇性地記住或遺忘資訊，這對於具有長期依賴關係的金融時間序列至關重要。

6. 分析框架與案例範例

框架：外匯機器學習流程
本研究展示了一個標準且有效的金融機器學習流程：

問題界定： 迴歸（LSTM用於價格預測）與分類（GBC用於方向預測）。
特徵工程： 從原始價格中建立預測訊號（報酬率、技術指標）。
模型選擇與訓練： 為時間序列資料選擇具序列感知能力的模型（LSTM）。
嚴謹驗證： 使用時間序列交叉驗證，而非隨機分割，以避免前視偏差。
策略回溯測試： 將模型預測轉化為具有現實約束條件的模擬交易策略。

案例範例：訊號產生
基於LSTM預測的一個簡化規則可以是：「若預測的明日價格 >（今日價格 + 閾值$\alpha$），則產生買入訊號。」GBC則直接輸出類別標籤（1代表上漲，0代表下跌）。從論文的交易虧損中得到的關鍵教訓是，後續必須有一個風險管理層來決定部位規模、停損單與投資組合配置，而這在模擬中很可能缺失或過於簡化。

7. 未來應用與方向

人工智慧在外匯預測的未來在於多模態、自適應系統：

整合替代性資料： 納入即時新聞情緒分析（使用如BERT等NLP模型）、央行溝通語氣與地緣政治風險指數，如同Two Sigma等避險基金的做法。
混合與注意力機制模型： 超越標準LSTM，採用具有自注意力機制的Transformer架構（如Vaswani等人的「Attention is All You Need」），能更靈活地權衡不同時間步的重要性。
強化學習（RL）： 開發RL代理程式，直接學習最佳交易策略，考量成本與風險調整後報酬，而不僅僅是預測價格。這與DeepMind和OpenAI在模擬環境中的研究方向一致。
可解釋人工智慧（XAI）： 實作如SHAP或LIME等技術來解釋模型預測，這對於法規遵循與獲得金融機構信任至關重要。
跨市場學習： 在多種貨幣對或資產類別上訓練模型，以學習波動性與傳染效應的通用模式。

8. 參考文獻

Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.
Gers, F. A., Schmidhuber, J., & Cummins, F. (2000). Learning to Forget: Continual Prediction with LSTM.
Rahman et al. (2022). LSTM-based Forecasting for Emerging Market Currencies: A USD/INR Case Study. Journal of Computational Finance.
Afrin, S., et al. (2021). Forecasting USD/BDT Exchange Rate Using Machine Learning. International Conference on Computer and Information Technology.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Yahoo Finance. (2023). USD/BDT Historical Data.

9. 產業分析師觀點

核心見解： 這篇論文是量化金融中「準確率-獲利能力悖論」的經典範例。作者建立了一個技術上穩健的LSTM模型，在USD/BDT預測上達到了近乎完美的99.45%準確率——這是一項值得稱讚的成就——然而他們關聯的交易策略卻導致了災難性的資本虧損。真正的重點不在於模型的精確度，而在於學術指標最佳化與現實世界交易損益之間的明顯脫節。它強調了許多量化分析師付出代價才學到的真理：最小化RMSE並不等同於最大化夏普比率。

邏輯流程： 本研究遵循標準流程：資料獲取、特徵工程、模型選擇（LSTM/GBC）與效能驗證。然而，邏輯缺陷在於從驗證到應用的跳躍。回溯測試顯得天真，很可能缺乏穩健的交易成本建模、滑價，以及最關鍵的——連貫的風險管理框架。40%的勝率伴隨巨大的淨虧損結果，表明策略每筆虧損交易的損失遠大於每筆獲利交易的收益——這是任何LSTM準確率都無法彌補的致命缺陷。

優點與缺點：

優點： 針對一個小眾且研究不足的貨幣對（USD/BDT）進行了出色的模型工程。與ARIMA的比較提供了清晰的基準。明確提及交易虧損展現了學術誠實，比許多只強調成功的論文更有價值。
缺點： 交易模擬基本上是事後想法，揭示了預測層與執行層之間缺乏整合——而這正是系統化交易的核心。沒有討論部位規模（例如凱利準則）、停損或投資組合情境。此外，儘管LSTM功能強大，但其黑箱特性相較於梯度提升樹等更易解釋的整合模型，在受監管的金融機構中採用仍是一大障礙。

可行動的見解：

以強化學習彌合差距： 未來的研究不應將預測與交易視為獨立步驟，而應採用端到端的強化學習（RL）。類似DeepMind用於遊戲的RL代理程式，可以從原始資料中學習最佳化直接交易指標（例如累積報酬、索提諾比率），從而內在地考量成本與風險。
採用「預測-執行-風險」三位一體： 任何預測研究都必須在三位一體的框架內進行評估。預測模型只是其中一個頂點。必須對執行模型（市場衝擊、成本）與風險模型（風險價值、預期短缺、回撤控制）施加同等嚴謹度。
聚焦於體制偵測： 在管理浮動匯率下的USD/BDT具有不同的體制（穩定、干預、危機）。應先使用如馬可夫轉換模型或分群演算法等模型來偵測當前體制，然後再應用最合適的預測模型。單一模型適用所有情況的方法是短視的。
優先考慮可解釋性： 要從學術練習轉變為交易員的工具，需實作XAI技術。向交易員展示一個「賣出」訊號有60%是由於貿易逆差擴大驅動，40%是由於RSI背離，這比一個99%準確的黑箱更能建立信任。

總而言之，這篇論文是將深度學習應用於前沿市場的穩健一步。然而，其最重要的貢獻是無意間凸顯了優秀預測與優秀交易之間的鴻溝。下一個突破不會來自於稍微好一點的LSTM，而是來自於一個理解金融是關於管理不確定性與風險，而不僅僅是預測數字的整體性人工智慧系統。