1. Pengenalan
Ramalan tepat kadar pertukaran EUR/USD adalah cabaran kritikal untuk kewangan global, yang memberi kesan kepada pelabur, syarikat multinasional, dan pembuat dasar. Model ekonometrik tradisional, yang bergantung pada penunjuk makroekonomi berstruktur, sering gagal menangkap turun naik pasaran masa nyata dan kesan nuansa berita dan peristiwa geopolitik. Kertas kerja ini memperkenalkan rangka kerja IUS (Informasi-Bersatu-Berstruktur), satu pendekatan novel yang menggabungkan data teks tidak berstruktur (berita, analisis) dengan data kuantitatif berstruktur (kadar pertukaran, penunjuk kewangan) untuk meningkatkan ketepatan ramalan. Dengan memanfaatkan Model Bahasa Besar (LLM) untuk klasifikasi sentimen dan pergerakan lanjutan, dan mengintegrasikan pandangan ini dengan rangkaian Memori Jangka Pendek Panjang Dwiarah (Bi-LSTM) yang dioptimumkan Optuna, kaedah yang dicadangkan ini menangani batasan utama dalam paradigma ramalan semasa.
2. Rangka Kerja IUS: Seni Bina & Metodologi
Rangka kerja IUS adalah saluran paip sistematik yang direka untuk gabungan data kewangan pelbagai sumber dan pemodelan ramalan.
2.1. Integrasi Data Pelbagai Sumber
Rangka kerja ini memproses dua aliran data utama:
- Data Berstruktur: Kadar pertukaran EUR/USD sejarah, penunjuk kewangan utama (cth., kadar faedah, indeks inflasi, angka KDNK).
- Data Teks Tidak Berstruktur: Artikel berita, laporan kewangan, dan analisis pasaran berkaitan ekonomi Zon Euro dan AS.
Gabungan ini bertujuan untuk menangkap kedua-dua sejarah kuantitatif dan sentimen kualitatif yang mendorong pergerakan pasaran.
2.2. Pengekstrakan Ciri Teks Berkuasa LLM
Untuk mengatasi cabaran hingar dan semantik kompleks dalam teks kewangan, rangka kerja ini menggunakan Model Bahasa Besar (cth., model seperti GPT atau BERT) untuk analisis dwi-tujuan:
- Pemarkahan Polariti Sentimen: Memberikan skor sentimen berangka (cth., -1 untuk menurun, +1 untuk meningkat) kepada setiap dokumen teks.
- Klasifikasi Pergerakan Kadar Pertukaran: Secara langsung mengklasifikasikan ramalan tersirat teks terhadap pergerakan EUR/USD (cth., Naik, Turun, Stabil).
Langkah ini mengubah teks tidak berstruktur menjadi ciri berangka yang boleh ditindak.
2.3. Penjana Ciri Berpandukan Kausaliti
Ciri teks yang dijana digabungkan dengan ciri kuantitatif yang telah diproses. Modul analisis kausaliti (berpotensi menggunakan kaedah seperti kausaliti Granger atau mekanisme perhatian) digunakan untuk mengenal pasti dan memberi pemberat kepada ciri berdasarkan kausaliti ramalan mereka berkenaan kadar pertukaran masa depan, dan bukannya sekadar korelasi. Ini memastikan model memberi tumpuan kepada pemacu yang paling relevan.
2.4. Model Bi-LSTM Dioptimumkan Optuna
Set ciri yang digabungkan dimasukkan ke dalam rangkaian LSTM Dwiarah. Bi-LSTM memproses jujukan dalam kedua-dua arah hadapan dan belakang, menangkap konteks lalu dan masa depan dengan lebih berkesan untuk ramalan siri masa. Hiperparameter (cth., bilangan lapisan, unit tersembunyi, kadar dropout, kadar pembelajaran) dioptimumkan secara automatik menggunakan Optuna, satu rangka kerja pengoptimuman Bayesian, untuk mencari konfigurasi model yang paling berkesan.
3. Persediaan Eksperimen & Keputusan
3.1. Set Data & Model Asas
Eksperimen dijalankan pada set data yang merangkumi beberapa tahun kadar EUR/USD harian, penunjuk makroekonomi sepadan, dan berita kewangan yang diselaraskan. Rangka kerja IUS yang dicadangkan dengan Optuna-Bi-LSTM dibandingkan dengan beberapa model asas yang kuat, termasuk:
- Model LSTM dan Bi-LSTM standard yang hanya menggunakan data berstruktur.
- Model hibrid CNN-LSTM.
- Model ekonometrik tradisional (cth., ARIMA).
3.2. Metrik Prestasi & Keputusan
Prestasi model dinilai menggunakan metrik regresi standard: Ralat Mutlak Min (MAE) dan Ralat Punca Kuasa Dua Min (RMSE).
Keputusan Eksperimen Utama
Model IUS + Optuna-Bi-LSTM mencapai prestasi terbaik:
- Mengurangkan MAE sebanyak 10.69% berbanding model asas berprestasi terbaik.
- Mengurangkan RMSE sebanyak 9.56%.
Tafsiran: Ini menunjukkan peningkatan ketara dan teguh dalam ketepatan ramalan, dengan pengurangan RMSE menunjukkan pengendalian ralat besar (pencilan) yang lebih baik.
3.3. Kajian Ablasi & Kepentingan Ciri
Kajian ablasi mengesahkan nilai gabungan data:
- Model yang menggunakan hanya data berstruktur menunjukkan prestasi lebih rendah daripada rangka kerja IUS penuh.
- Gabungan data tidak berstruktur (teks) dan data berstruktur menghasilkan ketepatan tertinggi.
- Pemilihan ciri mendedahkan bahawa konfigurasi optimum menggunakan 12 ciri kuantitatif paling penting digabungkan dengan ciri teks yang dijana LLM.
4. Selami Teknikal
Formulasi Matematik Teras: Operasi sel Bi-LSTM boleh diringkaskan. Untuk langkah masa tertentu \(t\) dan input \(x_t\), LSTM hadapan mengira keadaan tersembunyi \(\overrightarrow{h_t}\) dan LSTM belakang mengira \(\overleftarrow{h_t}\). Output akhir \(h_t\) adalah penyambungan: \(h_t = [\overrightarrow{h_t}; \overleftarrow{h_t}]\).
Fungsi kerugian yang diminimumkan semasa latihan biasanya Ralat Kuasa Dua Min (MSE): $$L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$$ di mana \(y_i\) ialah kadar pertukaran masa depan sebenar dan \(\hat{y}_i\) ialah ramalan model.
Peranan Optuna: Optuna mengautomasikan carian untuk hiperparameter \(\theta\) (cth., kadar pembelajaran \(\eta\), unit LSTM) dengan mentakrifkan fungsi objektif \(f(\theta)\) (cth., RMSE set pengesahan) dan meneroka ruang parameter dengan cekap menggunakan algoritma Penganggar Parzen Berstruktur Pokok (TPE), seperti yang diterangkan dalam kertas asas mereka [Akiba et al., 2019].
5. Rangka Kerja Analisis: Satu Kes Praktikal
Skenario: Meramal pergerakan EUR/USD untuk hari dagangan berikutnya selepas pengumuman dasar Bank Pusat Eropah (ECB).
- Pengumpulan Data: Kumpulkan siaran akhbar ECB hari itu, ringkasan penganalisis dari Reuters/Bloomberg, dan data berstruktur (EUR/USD semasa, hasil bon, indeks turun naik).
- Pemprosesan LLM: Masukkan dokumen teks ke dalam modul LLM. Model mengeluarkan: Skor Sentimen = +0.7 (sederhana meningkat), Klasifikasi Pergerakan = "Naik".
- Gabungan Ciri: Skor ini digabungkan dengan 12 ciri kuantitatif terpilih (cth., spread hasil 10 tahun, pulangan hari sebelumnya).
- Pemberat Kausaliti: Penjana ciri memberikan pemberat lebih tinggi kepada "Skor Sentimen" dan "Spread Hasil" berdasarkan kesan kausal sejarah.
- Ramalan: Vektor ciri berpemberat dimasukkan ke dalam Optuna-Bi-LSTM yang telah dilatih, yang mengeluarkan nilai kadar pertukaran ramalan khusus.
Kes ini menggambarkan bagaimana rangka kerja menterjemah peristiwa dunia sebenar kepada ramalan yang boleh diukur dan boleh ditindak.
6. Aplikasi Masa Depan & Hala Tuju Penyelidikan
- Ramalan Aset Silang: Menggunakan rangka kerja IUS kepada pasangan mata wang lain (cth., GBP/USD, USD/JPY) dan aset berkorelasi seperti ekuiti atau komoditi.
- Sistem Ramalan Masa Nyata: Membangunkan saluran paip latensi rendah untuk dagangan intradag, memerlukan LLM yang cekap dan disuling serta integrasi data strim.
- Integrasi AI Boleh Diterangkan (XAI): Menggabungkan teknik seperti SHAP atau LIME untuk menerangkan mengapa model membuat ramalan tertentu, penting untuk pematuhan peraturan dan kepercayaan peniaga. Sumber seperti buku Interpretable Machine Learning oleh Christoph Molnar menyediakan asas untuk ini.
- LLM Pelbagai Modal: Menggunakan LLM generasi seterusnya yang boleh memproses bukan sahaja teks tetapi juga audio (panggilan pendapatan) dan data dari carta/graf untuk konteks yang lebih kaya.
- Pemilihan Ciri Adaptif: Bergerak dari set ciri 12 teratas statik kepada mekanisme kepentingan ciri dinamik yang berubah mengikut masa.
7. Rujukan
- Akiba, T., Sano, S., Yanase, T., Ohta, T., & Koyama, M. (2019). Optuna: A Next-generation Hyperparameter Optimization Framework. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
- Molnar, C. (2020). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. https://christophm.github.io/interpretable-ml-book/
- Singh, et al. (2023). [Relevant baseline study on Weibo text and CNN-LSTM].
- Tadphale, et al. (2022). [Relevant baseline study on news headlines and LSTM].
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30.
8. Sudut Penganalisis: Dekonstruksi Kritikal
Pandangan Teras: Kertas kerja ini bukan sekadar satu lagi projek "AI untuk kewangan"; ia adalah serangan tepat pada kelemahan paling berterusan dalam kewangan kuantitatif: ketinggalan integrasi antara berita dan nombor. Penulis mengenal pasti dengan betul bahawa sentimen adalah penunjuk utama, tetapi alat NLP tradisional terlalu tumpul untuk naratif forex yang nuansa dan dwiarah. Penggunaan mereka terhadap LLM sebagai penapis semantik untuk menghasilkan ciri sentimen yang bersih dan berarah adalah lompatan intelektual utama. Ia adalah peralihan dari beg-perkataan kepada model pemahaman, serupa dengan bagaimana rangka kerja CycleGAN untuk terjemahan imej tidak berpasangan [Zhu et al., 2017] mencipta paradigma baru dengan mempelajari pemetaan antara domain tanpa korespondensi ketat.
Aliran Logik: Seni bina ini logik dan kukuh. Saluran paip—pengekstrakan ciri LLM → penapisan kausaliti → pemodelan jujukan dioptimumkan—mencerminkan amalan terbaik dalam ML moden: gunakan model asas berkuasa untuk kejuruteraan ciri, perkenalkan bias induktif (kausaliti) untuk melawan lampau muat, dan kemudian biarkan peramal khusus (Bi-LSTM) melakukan tugasnya dengan parameter yang ditala. Integrasi Optuna adalah sentuhan pragmatik, mengakui bahawa prestasi model sering dihadkan oleh neraka hiperparameter.
Kekuatan & Kelemahan: Kekuatan utama adalah keberkesanan yang ditunjukkan (pengurangan MAE 10.69% adalah ketara dalam forex) dan penyelesaian elegan kepada masalah "teks dua negara" melalui klasifikasi LLM. Walau bagaimanapun, kelemahan kertas kerja ini adalah pengabaian: kependaman operasi dan kos. Menjalankan inferens pada LLM besar untuk setiap item berita adalah mahal dari segi pengiraan dan perlahan. Untuk dagangan frekuensi tinggi (HFT), rangka kerja ini kini tidak praktikal. Tambahan pula, "Penjana Ciri Berpandukan Kausaliti" kurang ditentukan—adakah ia kausaliti Granger, topeng perhatian yang dipelajari, atau sesuatu yang lain? Kotak hitam ini boleh menjadi isu kebolehhasilan semula.
Pandangan Boleh Tindak: Untuk kuant dan pengurus aset, pengajaran adalah jelas: Utamakan kualiti isyarat sentimen berbanding kuantiti. Melabur dalam penalaan halus LLM yang lebih kecil dan khusus domain (seperti FinBERT) pada korpus forex mungkin memberikan kebanyakan manfaat pada pecahan kos dan kependaman. Hala tuju penyelidikan harus berputar ke arah kecekapan—meneroka penyulingan pengetahuan dari LLM besar ke model lebih kecil, dan kebolehterangan—menggunakan pemberat perhatian dari LLM dan Bi-LSTM untuk menjana "laporan penaakulan" untuk dagangan, satu keperluan untuk pematuhan dana. Pemenang masa depan dalam ruang ini bukan sahaja akan mempunyai model paling tepat, tetapi yang paling pantas, murah, dan telus.