انتخاب زبان

بهبود پیش‌بینی نرخ ارز با مدل‌های یادگیری عمیق قابل تفسیر

تحلیل مدل‌های یادگیری عمیق (LSTM، CNN، Transformer، TSMixer) برای پیش‌بینی یوان/دلار، با قابلیت انتخاب ویژگی، تفسیرپذیری grad-CAM و اهمیت شاخص‌های اقتصادی.
computecurrency.net | PDF Size: 0.2 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - بهبود پیش‌بینی نرخ ارز با مدل‌های یادگیری عمیق قابل تفسیر

فهرست مطالب

1. مقدمه و مرور کلی

پیش‌بینی دقیق نرخ ارز یوان/دلار چالشی حیاتی در امور مالی بین‌المللی است که بر تجارت، سرمایه‌گذاری و سیاست پولی تأثیر می‌گذارد. مدل‌های اقتصادسنجی سنتی اغلب در مواجهه با ناهمسانی‌ها و وابستگی‌های متقابل پیچیده ذاتی در داده‌های مالی با فرکانس بالا دچار مشکل می‌شوند. این پژوهش با ارزیابی سیستماتیک مدل‌های پیشرفته یادگیری عمیق—حافظه کوتاه‌مدت بلندمدت (LSTM)، شبکه‌های عصبی کانولوشنی (CNN)، معماری‌های مبتنی بر ترنسفورمر و مدل TSMixer که اخیراً پیشنهاد شده است—برای پیش‌بینی نرخ ارز، به رفع این شکاف می‌پردازد.

نوآوری اصلی این مطالعه نه تنها در به‌کارگیری این مدل‌ها، بلکه در ادغام دقیق قابلیت تفسیرپذیری است. با استفاده از نقشه‌برداری فعالسازی کلاس وزندهی‌شده با گرادیان (grad-CAM)، نویسندگان فراتر از پیش‌بینی‌های "جعبه سیاه" رفته و مشخص می‌کنند که کدام ویژگی‌های اقتصادی (مانند حجم تجارت چین و آمریکا، نرخ‌های ارز متقاطع مانند یورو/یوان) به‌طور معناداری پیش‌بینی‌های مدل را هدایت می‌کنند. این ترکیب از دقت پیش‌بینی بالای TSMixer با تفسیرپذیری قابل اقدام، گامی مهم به سوی هوش مصنوعی قابل اعتماد در امور مالی محسوب می‌شود.

آمار کلیدی مجموعه داده

ویژگی‌ها: 40 ویژگی در 6 دسته

جفت ارز محوری: یوان/دلار

شاخص‌های کلیدی: حجم‌های تجاری، نرخ‌های متقاطع اصلی (یورو، ین)

مدل با بهترین عملکرد

مدل: TSMixer

مزیت: برخورد برتر با سری‌های زمانی چندمتغیره

ابزار تفسیرپذیری: Grad-CAM

2. روش‌شناسی و مدل‌ها

2.1 داده‌ها و مهندسی ویژگی

این تحلیل از یک مجموعه داده جامع متشکل از 40 ویژگی استفاده می‌کند که در شش گروه دسته‌بندی شده‌اند: (1) تاریخچه مستقیم نرخ یوان/دلار، (2) سایر جفت ارزهای اصلی (مانند یورو/یوان، دلار/ین)، (3) معیارهای تجارت دوجانبه چین و آمریکا، (4) شاخص‌های کلان اقتصادی از هر دو اقتصاد (مانند نرخ بهره، تورم)، (5) قیمت‌های کالاها، و (6) شاخص‌های احساسات یا نوسان بازار. فرآیندی دقیق برای انتخاب ویژگی به‌کار گرفته شد تا نویز کاهش یابد و پیش‌بینانه‌ترین متغیرها شناسایی شوند، با تأکید قوی بر محرک‌های اقتصادی بنیادی.

2.2 معماری‌های یادگیری عمیق

چهار خانواده مدل مورد ارزیابی قرار گرفتند:

  • LSTM: وابستگی‌های زمانی بلندمدت در داده‌های ترتیبی را ثبت می‌کند.
  • CNN: الگوها و ویژگی‌های محلی را در سراسر "تصویر" سری زمانی استخراج می‌کند.
  • Transformer: از مکانیزم‌های توجه خودی برای وزن‌دهی اهمیت مراحل زمانی و ویژگی‌های مختلف در سطح جهانی استفاده می‌کند.
  • TSMixer: یک معماری جدید تماماً MLP (پرسپترون چندلایه) طراحی‌شده برای سری‌های زمانی چندمتغیره که از لایه‌های ترکیب ویژگی و ترکیب زمانی برای یادگیری کارآمد بهره می‌برد.

2.3 تفسیرپذیری با Grad-CAM

برای روشن‌سازی پیش‌بینی‌های مدل، نقشه‌برداری فعالسازی کلاس وزندهی‌شده با گرادیان (grad-CAM) برای رگرسیون سری زمانی تطبیق داده شد. این تکنیک یک نقشه حرارتی بر روی فضای ویژگی-زمان ورودی تولید می‌کند که مناطق مؤثرتر برای یک پیش‌بینی خاص را برجسته می‌سازد. برای پیش‌بینی $\hat{y}_t$ یک مدل، grad-CAM گرادیان $\hat{y}_t$ را نسبت به فعال‌سازی‌های یک لایه کانولوشنی انتخاب‌شده محاسبه می‌کند. ترکیب وزندار این نقشه‌های فعالسازی، اهمیت ویژگی را نشان می‌دهد و توضیحات بصری و کمی ارائه می‌دهد.

3. نتایج تجربی و تحلیل

3.1 مقایسه عملکرد مدل‌ها

TSMixer به‌طور مداوم در معیارهای استانداردی مانند خطای مطلق میانگین (MAE)، خطای میانگین مربعات ریشه (RMSE) و دقت جهت‌دار، از مدل‌های LSTM، CNN و Transformer عملکرد بهتری نشان داد. ساختار تماماً MLP آن به‌ویژه در مدل‌سازی تعاملات بین 40 ویژگی اقتصادی متنوع مؤثر بود. ترنسفورمر عملکرد رقابتی نشان داد اما با هزینه محاسباتی بالاتر، در حالی که LSTM و CNN به عنوان خطوط پایه قوی عمل کردند اما فاقد کارایی TSMixer در ترکیب ویژگی بودند.

توضیح نمودار (تصوری): یک نمودار میله‌ای که RMSE چهار مدل را مقایسه می‌کند. میله TSMixer کوتاه‌ترین است که نشان‌دهنده کمترین خطا است و پس از آن ترنسفورمر، CNN و LSTM قرار دارند. یک نمودار خطی روی هم نشان می‌دهد که پیش‌بینی‌های TSMixer به‌طور نزدیک داده‌های آزمون واقعی یوان/دلار را دنبال می‌کند، در حالی که سایر مدل‌ها در دوره‌های نوسان بالا انحرافات بزرگتری نشان می‌دهند.

3.2 اهمیت ویژگی‌های کلیدی

انتخاب ویژگی و تحلیل grad-CAM به یک بینش حیاتی همگرا شد: روابط اقتصادی بنیادی از اهمیت بالایی برخوردارند. تأثیرگذارترین ویژگی‌ها فقط مقادیر تأخیری نرخ هدف نبودند، بلکه شامل موارد زیر بودند:

  • حجم و تراز تجارت چین و آمریکا.
  • نرخ‌های ارز یورو در مقابل یوان و ین ژاپن در مقابل دلار.
  • تفاوت نرخ بهره بین بانک مرکزی چین و فدرال رزرو.

این موضوع اهمیت دیدگاه کلان اقتصادی چندارزی در پیش‌بینی را تأیید می‌کند.

3.3 مصورسازی تصمیمات مدل

نقشه‌های حرارتی Grad-CAM شواهد شهودی ارائه دادند. برای مثال، در طول یک پیش‌بینی کاهش ارزش یوان، نقشه حرارتی فعالسازی بالا را روی ویژگی‌هایی مانند افزایش کسری تجاری آمریکا-چین و تقویت نرخ دلار/ین نشان می‌داد. این به تحلیلگران اجازه می‌دهد مدل را "اشکال‌زدایی" کنند و تأیید کنند که از سیگنال‌های اقتصادی معقول به جای همبستگی‌های کاذب استفاده می‌کند.

4. بینش اصلی و دیدگاه تحلیلی

بینش اصلی: این مقاله با موفقیت نشان می‌دهد که مرز پیش‌بینی مالی فقط درباره افزودن لایه‌ها یا داده‌های بیشتر نیست؛ بلکه درباره کارایی معماری همراه با قابلیت درک پسینی است. TSMixer یک ایده انقلابی جدید مانند ترنسفورمر اصلی نیست؛ بلکه یک طراحی کارآمد و عمل‌گرا است که برای سری‌های زمانی چندمتغیره به سبک جدولی—که دقیقاً چیزی است که اکثر مجموعه‌داده‌های مالی هستند—به‌طور استثنایی خوب عمل می‌کند. پیروزی واقعی، ترکیب این با grad-CAM است که گفتگو را از "کدام مدل دقیق‌تر است" به "کدام مدل سیگنال‌های دقیق و قابل اقدام به ما می‌دهد" منتقل می‌کند.

جریان منطقی: منطق پژوهشی مستحکم است: (1) پذیرش شکست مدل‌های خطی/اقتصادسنجی سنتی روی داده‌های پیچیده FX، (2) آزمایش مجموعه‌ای از معماری‌های DL مدرن، (3) شناسایی بهترین عملکرد (TSMixer)، و (4) به‌طور حیاتی، توضیح اینکه چرا کار می‌کند با استفاده از اهمیت ویژگی و grad-CAM. این مرحله آخر شکاف بین پژوهش هوش مصنوعی و امور مالی عملی را پر می‌کند.

نقاط قوت و ضعف:
نقاط قوت: تمرکز بر تفسیرپذیری بزرگترین نقطه قوت آن است که با تقاضای رو به رشد برای هوش مصنوعی قابل تفسیر (XAI) در صنایع تنظیم‌شده مانند امور مالی همسو است. انتخاب TSMixer هوشمندانه است—در مقایسه با ترنسفورمرهای عظیم، کمتر مستعد بیش‌برازش روی داده‌های مالی محدود است. تأکید بر ویژگی‌های بنیادی (جریان‌های تجاری، نرخ‌های متقاطع) هوش مصنوعی را در واقعیت اقتصادی مستقر می‌سازد.
نقاط ضعف: این مقاله، همان‌طور که خلاصه شده، احتمالاً یک محدودیت مشترک را به اشتراک می‌گذارد: بیش‌برازش بکتست. "40 ویژگی در 6 دسته" فریاد خطر بالای مقایسه‌های چندگانه و جستجوی داده را سر می‌دهد. برتری TSMixer خارج از نمونه در رژیم‌های بازار مختلف (مانند دوره‌های آرام در مقابل بحران) چقدر قوی است؟ علاوه بر این، در حالی که grad-CAM مفید است، یک توضیح پسینی است؛ تضمین نمی‌کند که مدل روابط علّی را یاد گرفته است، فقط همبستگی‌هایی که مهم می‌داند.

بینش‌های قابل اقدام:

  • برای تحلیلگران کمی: اولویت را به آزمایش معماری‌های MLP به سبک TSMixer روی مسائل پیش‌بینی چندمتغیره خود بدهید. به‌طور پیش‌فرض به LSTM‌ها متوسل نشوید. در ساخت خطوط لوله ویژگی قوی متمرکز بر محرک‌های بنیادی سرمایه‌گذاری کنید.
  • برای مدیران ریسک: از مصورسازی‌های grad-CAM به عنوان یک مرحله اجباری "حسابرسی مدل" استفاده کنید. اگر نقشه حرارتی قبل از یک پیش‌بینی اصلی ویژگی‌های بی‌معنی را برجسته کرد، اعتبار مدل را زیر سؤال ببرید.
  • برای پژوهشگران: گام بعدی حرکت از توضیح به توضیح علّی است. ابزارهایی از استنتاج علّی (مانند یادگیری ماشین دوگانه، آزمون‌های علیت گرنجر در چارچوب DL) را برای حرکت فراتر از همبستگی ادغام کنید. ادغام این رویکرد با داده‌های دفتر سفارش با فرکانس بالا برای پیش‌بینی درون‌روز را بررسی کنید.

تحلیل اصلی (300-600 کلمه): این پژوهش در تقاطع جذاب دو روند قدرتمند قرار دارد: صعود معماری‌های کارآمد یادگیری عمیق برای داده‌های ساختاریافته و تقاضای غیرقابل مذاکره برای تفسیرپذیری در هوش مصنوعی مالی. انتخاب TSMixer توسط نویسندگان به‌ویژه بینش‌مندانه است. همان‌طور که در مقاله اصلی TSMixer توسط پژوهشگران گوگل برجسته شده، قدرت آن در سادگی و کارایی روی معیارهای سری زمانی چندمتغیره نهفته است که اغلب از ترنسفورمرهای پیچیده‌تر بهتر عمل می‌کند. این با اجماع رو به رشد در ML همسو است، که یادآور درس‌های مدل "MLP-Mixer" برای بینایی است، که MLP‌های به‌خوبی طراحی‌شده می‌توانند به‌طور شگفت‌آوری رقابتی باشند. در امور مالی، جایی که داده‌ها می‌توانند پرنویز باشند و رژیم‌ها تغییر کنند، این سادگی یک فضیلت است و خطرات بیش‌برازش را در مقایسه با میلیون‌ها پارامتر در یک ترنسفورمر کامل کاهش می‌دهد.

ادغام grad-CAM حرکت استادانه‌ای است که این را از یک تمرین عملکرد محض به یک ابزار عملی ارتقا می‌دهد. هوش مصنوعی قابل تفسیر (XAI) دیگر اختیاری نیست. چارچوب‌های نظارتی در سراسر جهان، تحت تأثیر نهادهایی مانند مقامات اتحادیه اروپا در مورد هوش مصنوعی، در حال فشار برای شفافیت در تصمیم‌گیری خودکار هستند. توانایی نشان دادن به یک مدیر ریسک که یک پیش‌بینی کاهش ارزش یوان عمدتاً توسط یک کسری تجاری در حال گسترش و انتظارات افزایش نرخ بهره فدرال رزرو هدایت می‌شود—همان‌طور که یک نقشه حرارتی grad-CAM نشان می‌دهد—اعتماد ضروری را ایجاد می‌کند. این رویکرد پیشرفت‌هایی در بینایی کامپیوتر را منعکس می‌کند، جایی که grad-CAM، معرفی‌شده توسط سلواراجو و همکاران، با نشان دادن "مدل به کجا نگاه می‌کند" تفسیرپذیری مدل را متحول کرد. تطبیق این تکنیک با امور مالی سری زمانی یک کاربرد مستقیم و ارزشمند است.

با این حال، یک تحلیلگر منتقد باید به آینده نگاه کند. اتکا به همبستگی تاریخی، حتی زمانی که توضیح داده می‌شود، همچنان یک محدودیت باقی می‌ماند. آینده در گرو گنجاندن چارچوب‌های کشف علّی است. برای مثال، آیا می‌توان معماری را برای ادغام ایده‌هایی از مدل‌های ساختاری علّی یا برای انجام کمینه‌سازی ریسک تغییرناپذیر برای یادگیری روابطی که در چرخه‌های اقتصادی مختلف برقرار هستند، اصلاح کرد؟ علاوه بر این، در حالی که تمرکز بر یوان/دلار مرتبط است، آزمایش تعمیم‌پذیری چارچوب TSMixer+grad-CAM به سایر جفت ارزهای پرنوسان (مانند ارزهای بازارهای نوظهور) یا حتی سایر طبقات دارایی، آزمون واقعی استحکام آن خواهد بود. این کار یک پایه عالی است؛ لایه بعدی باید آزمون علیت و استحکام خارج از دامنه باشد.

5. جزئیات فنی و چارچوب ریاضی

مسئله اصلی پیش‌بینی به‌عنوان پیش‌بینی بازده یا سطح نرخ ارز آتی بر اساس یک پنجره سری زمانی چندمتغیره فرموله شده است. فرض کنید $\mathbf{X}_t = [\mathbf{x}_{t-T+1}, ..., \mathbf{x}_t] \in \mathbb{R}^{T \times F}$ یک ماتریس از $F=40$ ویژگی در یک پنجره بازگشت به گذشته از $T$ مرحله زمانی باشد. مدل $f(\cdot)$ پارامتری‌شده توسط $\theta$ مرحله بعدی را پیش‌بینی می‌کند: $\hat{y}_{t+1} = f_\theta(\mathbf{X}_t)$.

لایه TSMixer (ساده‌شده): یک جزء کلیدی دو عملیات ترکیب را اعمال می‌کند:
1. ترکیب زمانی: MLP اعمال‌شده در بعد زمان برای هر ویژگی به‌طور مستقل: $\mathbf{Z} = \sigma(\mathbf{X} \mathbf{W}_1 + \mathbf{b}_1) \mathbf{W}_2 + \mathbf{b}_2$.
2. ترکیب ویژگی: MLP اعمال‌شده در بعد ویژگی برای هر مرحله زمانی به‌طور مستقل، اجازه تعامل ویژگی‌ها را می‌دهد.

Grad-CAM برای سری زمانی: برای یک لایه کانولوشنی با نقشه‌های فعالسازی خروجی $\mathbf{A}^k \in \mathbb{R}^{T \times F}$، وزن اهمیت $\alpha_k$ برای نقشه $k$ برای پیش‌بینی $\hat{y}$ از طریق گرادیان‌ها محاسبه می‌شود: $\alpha_k = \frac{1}{Z} \sum_{t} \sum_{f} \frac{\partial \hat{y}}{\partial A_{tf}^k}$. نقشه حرارتی grad-CAM $\mathbf{L} \in \mathbb{R}^{T \times F}$ یک مجموع وزندار است: $\mathbf{L} = ReLU(\sum_k \alpha_k \mathbf{A}^k)$. $ReLU$ ویژگی‌هایی با تأثیر مثبت بر پیش‌بینی را برجسته می‌کند.

6. چارچوب تحلیل: یک مثال عملی

سناریو: یک صندوق پوشش ریسک می‌خواهد چشم‌انداز کوتاه‌مدت یوان/دلار را برای اطلاع‌رسانی به سبد ارزی آسیای خود ارزیابی کند.

کاربرد چارچوب:

  1. مجموعه‌آوری داده: تیم داده صندوق مجموعه ویژگی 6 دسته‌ای مطالعه را تکرار می‌کند و داده‌ها را از بلومبرگ/رفینیتیو برای جریان‌های تجاری، نرخ‌های متقاطع و تفاوت نرخ بهره تهیه می‌کند.
  2. آموزش و انتخاب مدل: آنها مدل‌های LSTM، CNN، Transformer و TSMixer را روی داده‌های 2010-2021 آموزش می‌دهند و داده‌های 2022 را برای اعتبارسنجی کنار می‌گذارند. آنها برتری عملکرد TSMixer را روی بخش داده خاص خود تأیید می‌کنند.
  3. پیش‌بینی و توضیح: در 1 ژوئیه 2023، مدل TSMixer یک تضعیف 1.5 درصدی یوان را در ماه آینده پیش‌بینی می‌کند. به جای پذیرش این به ظاهر ارزش، تحلیلگر grad-CAM را اجرا می‌کند.
  4. تفسیر و تصمیم: نقشه حرارتی grad-CAM بالاترین فعالسازی را روی (الف) افزایش اخیر در بازده 10 ساله آمریکا، (ب) کاهش در آمار رشد صادرات ماهانه چین، و (ج) تقویت نرخ یورو/دلار نشان می‌دهد. تحلیلگر این موارد را با دیدگاه‌های بنیادی مقایسه می‌کند: "مدل در حال شناسایی تفاوت‌های بازده در حال گسترش و کاهش شتاب صادرات چین است—هر دو سیگنال نزولی معتبر برای یوان. پیوند یورو/دلار ممکن است یک نماینده ریسک‌پذیری باشد. دیدگاه داخلی ما با (الف) و (ب) همسو است، بنابراین اطمینان ما به شورت افزایش می‌یابد و نسبت پوشش خود را بر این اساس افزایش می‌دهیم."

این چارچوب یک پیش‌بینی مبهم را به یک تز سرمایه‌گذاری استدلالی و قابل حسابرسی تبدیل می‌کند.

7. کاربردهای آتی و جهت‌های پژوهشی

  • پیش‌بینی چندطبقه دارایی: اعمال چارچوب TSMixer+grad-CAM به سایر ابزارهای مالی پیچیده مانند اسپرد اعتباری، ساختارهای زمانی آتی کالاها یا جفت ارزهای رمزنگاری.
  • ادغام معاملات با فرکانس بالا (HFT): تطبیق مدل برای پیش‌بینی درون‌روز با استفاده از داده‌های دفتر سفارش محدود، جایی که تفسیرپذیری برای درک سیگنال‌های ریزساختار بازار زودگذر حیاتی است.
  • ادغام هوش مصنوعی علّی: امیدوارکننده‌ترین جهت. گنجاندن الگوریتم‌های کشف علّی (مانند PCMCI، علیت گرنجر عصبی) در حلقه آموزش برای هدایت مدل به سمت یادگیری روابط علّی، به جای صرفاً همبستگی، از 40 ویژگی.
  • فناوری نظارتی (RegTech): استفاده از خروجی‌های قابل تفسیر به‌عنوان بخشی از اعتبارسنجی و مستندسازی خودکار مدل برای انطباق با مقرراتی مانند SR 11-7 یا قانون هوش مصنوعی اتحادیه اروپا.
  • مدیریت فعال سبد: تعبیه این موتور پیش‌بینی و توضیح در یک سیستم بهینه‌سازی سبد پویا که مواجهه‌های ارزی را بر اساس سیگنال‌های مدل و وضوح اطمینان/توضیح مرتبط تنظیم می‌کند.

8. منابع

  1. Meng, S., Chen, A., Wang, C., et al. (2023). Enhancing Exchange Rate Forecasting with Explainable Deep Learning Models. Working Paper.
  2. Chen, S., et al. (2023). TSMixer: An All-MLP Architecture for Time Series Forecasting. arXiv preprint arXiv:2303.06053.
  3. Selvaraju, R. R., et al. (2017). Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
  4. European Commission. (2021). Proposal for a Regulation laying down harmonised rules on artificial intelligence (Artificial Intelligence Act).
  5. Board of Governors of the Federal Reserve System. (2011). Supervisory Guidance on Model Risk Management (SR Letter 11-7).
  6. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS).
  7. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation.