1. مقدمه
پیشبینی دقیق نرخ ارز یوان/دلار چالش حیاتی در امور مالی بینالمللی است که بر تجارت، سرمایهگذاری و سیاست پولی تأثیر میگذارد. نوسان ذاتی و پویایی غیرخطی پیچیده بازارهای ارز، مدلهای اقتصادسنجی سنتی را ناکافی میسازد. این پژوهش با ارزیابی سیستماتیک مدلهای پیشرفته یادگیری عمیق—شامل حافظه کوتاهمدت بلندمدت (LSTM)، شبکههای عصبی کانولوشنی (CNN) و معماریهای مبتنی بر ترنسفورمر—برای پیشبینی نرخ ارز، این شکاف را برطرف میکند. یک نوآوری کلیدی، ادغام تکنیکهای هوش مصنوعی قابل تفسیر (XAI)، به ویژه نقشهبرداری فعالسازی کلاس وزندهیشده با گرادیان (Grad-CAM)، برای شفافسازی تصمیمات مدل و شناسایی تأثیرگذارترین ویژگیهای کلان اقتصادی و مالی است.
2. روششناسی و مدلها
2.1 دادهها و مهندسی ویژگی
این مطالعه از مجموعه داده جامعی شامل ۴۰ ویژگی در ۶ دسته برای پیشبینی نرخ یوان/دلار استفاده میکند. دستههای ویژگی عبارتند از:
- شاخصهای کلان اقتصادی: رشد تولید ناخالص داخلی، نرخهای تورم (شاخص قیمت مصرفکننده، شاخص قیمت تولیدکننده)، تفاوت نرخ بهره.
- جریانهای تجاری و سرمایه: حجم تجارت دوجانبه چین و آمریکا، تراز حساب جاری.
- نرخهای ارز مرتبط: جفت ارزهای متقاطع مانند یورو/یوان و دلار/ین.
- احساسات بازار و نوسان: شاخصهای نوسان ضمنی، قیمت کالاها (مانند نفت).
- سیاست پولی: نرخهای سیاستی بانک مرکزی و الزامات ذخیره.
- شاخصهای فنی: میانگینهای متحرک، نوسانگرهای مومنتوم مشتقشده از دادههای تاریخی قیمت.
فرآیند انتخاب ویژگی دقیقی برای کاهش ابعاد و برجستهسازی پیشبینانهترین متغیرها به کار گرفته شد که بر محرکهای اقتصادی بنیادی به جای نویز تأکید داشت.
2.2 معماریهای یادگیری عمیق
این پژوهش چندین مدل پیشرفته را معیار قرار داد:
- LSTM: وابستگیهای زمانی بلندمدت در دادههای ترتیبی را ثبت میکند.
- CNN: الگوها و ویژگیهای محلی را در سراسر دادههای سری زمانی استخراج میکند.
- ترنسفورمر: از مکانیزمهای خودتوجهی برای وزندهی اهمیت مراحل زمانی و ویژگیهای مختلف در سطح جهانی استفاده میکند.
- TSMixer: یک مدل مبتنی بر MLP طراحیشده برای پیشبینی سری زمانی، که در این مطالعه از سایرین عملکرد بهتری داشت. این مدل لایههای متراکم را در ابعاد زمان و ویژگی اعمال میکند و معماری سادهتر اما بسیار مؤثری برای ثبت تعاملات پیچیده ارائه میدهد.
2.3 قابلیت تفسیر با Grad-CAM
برای فراتر رفتن از رویکرد "جعبه سیاه"، نویسندگان از Grad-CAM، تکنیکی که در ابتدا برای بینایی کامپیوتر توسعه یافته بود (سلواراجو و همکاران، ۲۰۱۷)، برای پیشبینی سری زمانی استفاده کردند. Grad-CAM یک نقشه حرارتی تولید میکند که مشخص میکند کدام ویژگیهای ورودی (و در کدام مراحل زمانی) برای پیشبینی مدل حیاتیتر بودهاند. این امر به تحلیلگران اجازه میدهد تا تأیید کنند که آیا تمرکز مدل با شهود اقتصادی همسو است یا خیر—به عنوان مثال، اولویتدهی به دادههای حجم تجارت در دورههای تشدید تنشهای تجاری.
3. نتایج آزمایشی
3.1 معیارهای عملکرد
مدلها با استفاده از معیارهای استاندارد ارزیابی شدند: میانگین خطای مطلق (MAE)، ریشه میانگین مربعات خطا (RMSE) و میانگین درصد خطای مطلق (MAPE).
خلاصه عملکرد مدل (دادههای فرضی)
بهترین عملکرد (TSMixer): RMSE = 0.0052, MAPE = 0.68%
ترنسفورمر: RMSE = 0.0058, MAPE = 0.75%
LSTM: RMSE = 0.0061, MAPE = 0.80%
CNN: RMSE = 0.0065, MAPE = 0.85%
توجه: نتایج عددی خاص بر اساس روایت مقاله از برتری TSMixer، نمایشی هستند.
3.2 یافتههای کلیدی و مصورسازیها
مدل TSMixer به طور مداوم دقیقترین پیشبینیها را ارائه داد. مهمتر از آن، مصورسازیهای Grad-CAM بینشهای عملی را آشکار کردند:
- اهمیت ویژگی: مدل وزن زیادی به حجم تجارت چین-آمریکا و نرخ ارز یورو/یوان داد که اهمیت پیوندهای تجاری بنیادی و آربیتراژ ارزهای متقاطع را تأیید میکند.
- تمرکز زمانی: در طول فازهای پرنوسان بازار (مانند پس از اصلاحات ۲۰۱۵، اصطکاک تجاری ۲۰۱۸)، توجه مدل به شدت به شاخصهای احساسات مبتنی بر اخبار و تاریخهای اعلام سیاست تغییر کرد.
- توضیح نمودار: یک نقشه حرارتی فرضی Grad-CAM یک مصورسازی چندردیفی را نشان میدهد. هر ردیف نمایانگر یک ویژگی است (مانند Trade_Volume، EUR_RMB). محور افقی زمان است. سلولها از آبی (اهمیت کم) تا قرمز (اهمیت بالا) رنگآمیزی شدهاند. دورههای کلیدی نوارهای قرمز روشن را در ویژگیهای بنیادی نشان میدهند که به صورت بصری پیشبینی را "تفسیر" میکنند.
4. تحلیل و بحث
4.1 بینش اصلی و جریان منطقی
بینش اصلی: ارزشمندترین سهم مقاله این نیست که صرفاً یادگیری عمیق کار میکند، بلکه این است که معماریهای سادهتر و بهخوب طراحیشده (TSMixer) میتوانند برای وظایف خاص پیشبینی مالی از مدلهای پیچیدهتر (ترنسفورمر) عملکرد بهتری داشته باشند، به ویژه زمانی که با مهندسی ویژگی دقیق و ابزارهای قابلیت تفسیر همراه شوند. جریان منطقی مستحکم است: پیچیدگی مسئله پیشبینی را شناسایی کنید، مجموعهای از مدلهای مدرن یادگیری عمیق را آزمایش کنید و سپس از XAI برای اعتبارسنجی و تفسیر منطق برنده استفاده کنید. این امر، حوزه را از عملکرد صرفاً پیشبینانه به سمت عملکرد قابل حسابرسی سوق میدهد.
4.2 نقاط قوت و ضعفهای حیاتی
نقاط قوت:
- ادغام عملی XAI: اعمال Grad-CAM بر روی امور مالی سری زمانی، گامی هوشمندانه و عملگرایانه به سمت اعتمادپذیری مدل است که مانع بزرگی در پذیرش صنعتی محسوب میشود.
- رویکرد متمرکز بر ویژگی: تأکید بر ویژگیهای اقتصادی بنیادی (تجارت، نرخهای متقاطع) به جای تحلیل فنی محض، مدل را در واقعیت اقتصادی مستقر میسازد.
- معیارگذاری قوی: مقایسه LSTM، CNN و ترنسفورمر، معیار معاصر مفیدی برای این حوزه فراهم میکند.
- خطر بیشبرازش نادیده گرفته شده: با ۴۰ ویژگی و مدلهای پیچیده، مقاله احتمالاً با خطرات قابل توجه بیشبرازش مواجه بوده است. جزئیات مربوط به تنظیمسازی (دراپاوت، کاهش وزن) و دورههای آزمایش قوی خارج از نمونه (مانند نوسانات دوره کووید-۱۹) حیاتی هستند و به اندازه کافی گزارش نشدهاند.
- سوگیری جستجوی داده: فرآیند انتخاب ویژگی، هرچند دقیق، ذاتاً اگر با پنجرههای متحرک به دقت مدیریت نشود، سوگیری نگاه به جلو را معرفی میکند. این نقطه ضعف بسیاری از مقالات یادگیری ماشین مالی است.
- عدم وجود آزمون شوک اقتصادی: TSMixer در طول رویدادهای واقعی قوی سیاه چگونه عمل کرد؟ عملکرد آن در طول اصلاحات ۲۰۱۵ ذکر شده، اما یک آزمون استرس در برابر سقوط بازار ۲۰۲۰ یا تغییر جهت فدرال رزرو ۲۰۲۲ گویاتر خواهد بود.
- مقایسه با مدلهای پایه سادهتر: آیا به طور قابل توجهی از یک مدل ARIMA ساده یا یک راهپیمایی تصادفی بهتر عمل کرد؟ گاهی اوقات، پیچیدگی سود نهایی را با هزینه بالا اضافه میکند.
4.3 بینشهای عملی
برای تحلیلگران کمی و مؤسسات مالی:
- اولویتدهی به TSMixer برای پروژههای پایلوت: تعادل آن بین عملکرد و سادگی، آن را به نقطه شروع کمخطر و پربازده برای سیستمهای پیشبینی ارز داخلی تبدیل میکند.
- الزام XAI برای اعتبارسنجی مدل: اصرار بر ابزارهایی مانند Grad-CAM نه به عنوان یک فکر بعدی، بلکه به عنوان بخش اصلی چرخه عمر توسعه مدل. "استدلال" یک مدل باید قبل از استقرار قابل حسابرسی باشد.
- تمرکز بر کتابخانههای ویژگی، نه فقط مدلها: سرمایهگذاری در ساخت و نگهداری مجموعه دادههای باکیفیت و تأخیر کم برای ۶ دسته ویژگی شناساییشده. مدل فقط به اندازه سوخت آن خوب است.
- اجرای اعتبارسنجی متقاطع زمانی دقیق: برای مقابله با جستجوی داده، پروتکلهای دقیق آزمون پسین با مبدأ متحرک را همانطور که در مطالعات بانک فدرال رزرو (مانند کار آنها در پیشنگری لحظهای) توصیف شده، اتخاذ کنید.
5. بررسی فنی عمیق
5.1 فرمولبندی ریاضی
مسئله اصلی پیشبینی به صورت پیشبینی بازده نرخ ارز دوره بعد $y_{t+1}$ با توجه به یک سری زمانی چندمتغیره از ویژگیهای $\mathbf{X}_t = \{x^1_t, x^2_t, ..., x^F_t\}$ در یک پنجره نگاه به عقب به طول $L$ دوره فرمولبندی میشود: $\{\mathbf{X}_{t-L}, ..., \mathbf{X}_t\}$.
لایه TSMixer (سادهشده): یک عملیات کلیدی در TSMixer شامل دو نوع ترکیب MLP است:
- ترکیب زمانی: $\mathbf{Z} = \sigma(\mathbf{W}_t \cdot \mathbf{X} + \mathbf{b}_t)$ یک لایه متراکم را در بعد زمان برای هر ویژگی به طور مستقل اعمال میکند و الگوهای زمانی را ثبت میکند.
- ترکیب ویژگی: $\mathbf{Y} = \sigma(\mathbf{W}_f \cdot \mathbf{Z}^T + \mathbf{b}_f)$ یک لایه متراکم را در بعد ویژگی در هر مرحله زمانی اعمال میکند و تعاملات بین شاخصهای اقتصادی مختلف را مدل میکند.
Grad-CAM برای سری زمانی: برای یک پیشبینی هدف $\hat{y}$، نمره اهمیت $\alpha^c_k$ برای ویژگی $k$ از طریق انتشار معکوس گرادیان محاسبه میشود: $$\alpha^c_k = \frac{1}{T} \sum_{t} \frac{\partial \hat{y}^c}{\partial A^k_t}$$ که در آن $A^k_t$ فعالسازی آخرین لایه کانولوشنی یا متراکم برای ویژگی $k$ در زمان $t$ است. نقشه حرارتی نهایی Grad-CAM $L^c_{Grad-CAM}$ ترکیب وزنی این فعالسازیها است: $L^c_{Grad-CAM} = ReLU(\sum_k \alpha^c_k A^k)$. تابع ReLU اطمینان میدهد که فقط ویژگیهای با تأثیر مثبت نشان داده میشوند.
5.2 مثال چارچوب تحلیل
مورد: تحلیل تمرکز مدل در طول یک اعلام سیاست
سناریو: فدرال رزرو افزایش نرخ بهره غیرمنتظرهای را اعلام میکند. مدل TSMixer شما کاهش ارزش یوان را پیشبینی میکند.
- مرحله ۱ - تولید پیشبینی و Grad-CAM: مدل را برای دوره پس از اعلام اجرا کنید. نقشه حرارتی Grad-CAM را استخراج کنید.
- مرحله ۲ - تفسیر نقشه حرارتی: شناسایی کنید که کدام ردیفهای ویژگی (مانند `USD_Index`، `CN_US_Interest_Diff`) فعالسازی بالا (قرمز) را در مرحله زمانی اعلام و بلافاصله پس از آن نشان میدهند.
- مرحله ۳ - اعتبارسنجی با شهود: آیا تمرکز مدل با تئوری همسو است؟ تمرکز قوی بر تفاوت نرخ بهره، مدل را اعتبار میبخشد. اگر عمدتاً بر مثلاً `Oil_Price` تمرکز کرده باشد، پرچم قرمزی را برمیانگیزد که نیاز به بررسی همبستگیهای کاذب دارد.
- مرحله ۴ - اقدام: در صورت اعتبارسنجی، این بینش اعتماد به استفاده از مدل برای تحلیل سناریو حول جلسات آینده فدرال رزرو را تقویت میکند. نقشه حرارتی گزارش مستقیم و بصری برای ذینفعان فراهم میکند.
6. کاربردها و جهتهای آینده
روششناسی پیشگامانهای که در اینجا معرفی شده، کاربرد گستردهای فراتر از یوان/دلار دارد:
- پیشبینی چنددارایی: اعمال TSMixer+Grad-CAM بر روی سایر جفت ارزها، نوسان ارزهای دیجیتال یا پیشبینی قیمت کالاها.
- تحلیل تأثیر سیاست: بانکهای مرکزی میتوانند از چنین مدلهای قابل تفسیری برای شبیهسازی تأثیر بازار بر تغییرات سیاستی بالقوه استفاده کنند و درک کنند بازار به کدام کانالها (نرخ بهره، راهنمایی پیشرو) حساستر است.
- مدیریت ریسک بلادرنگ: ادغام این خط لوله در داشبوردهای معاملاتی بلادرنگ، جایی که Grad-CAM تغییر در عوامل محرک را با انتشار اخبار برجسته میکند و امکان تنظیم پویا استراتژیهای پوشش ریسک را فراهم میآورد.
- ادغام با دادههای جایگزین: کار آینده باید دادههای بدون ساختار (احساسات خبری از مدلهای NLP، لحن سخنرانی بانک مرکزی) را به عنوان ویژگیهای اضافی دربرگیرد و از همان چارچوب قابلیت تفسیر برای وزندهی تأثیر آنها در مقابل اصول بنیادی سنتی استفاده کند.
- کشف علیت: مرز بعدی حرکت از همبستگی (برجسته شده توسط Grad-CAM) به علیت است. تکنیکهایی مانند الگوریتمهای کشف علیت (مانند PCMCI) میتوانند با مدلهای یادگیری عمیق ترکیب شوند تا محرکهای بنیادی را از الگوهای اتفاقی متمایز کنند.
7. مراجع
- Meng, S., Chen, A., Wang, C., Zheng, M., Wu, F., Chen, X., Ni, H., & Li, P. (2023). Enhancing Exchange Rate Forecasting with Explainable Deep Learning Models. Manuscript in preparation.
- Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017). Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 618-626.
- Chen, S., & Hardle, W. K. (2023). AI in Finance: Challenges, Advances, and Opportunities. Annual Review of Financial Economics, 15.
- Federal Reserve Bank of New York. (2022). Nowcasting with Large Datasets. Staff Reports. Retrieved from https://www.newyorkfed.org/research/staff_reports
- Diebold, F. X., & Yilmaz, K. (2015). Financial and Macroeconomic Connectedness: A Network Approach to Measurement and Monitoring. Oxford University Press.