1. مقدمه
پیشبینیهای حاصل از پلتفرمهای پیشبینی جمعی آنلاین و آزاد مانند Metaculus، به طور فزایندهای توسط نهادهایی مانند بانک مرکزی اروپا، رسانههای خبری و سیاستگذاران به عنوان منابع بینش آیندهنگرانه مورد استفاده قرار میگیرند. با این حال، شواهد محدودی در مورد دقت مقایسهای آنها در مقابل روشهای پیشبینی سنتی و جاافتاده وجود دارد. این مطالعه با ارزیابی دقت پیشبینیهای نرخ ارز از Metaculus در مقابل یک معیار کلاسیک و بدنام که شکست دادن آن دشوار است (مدل راهپیمایی تصادفی بدون رانش)، به این شکاف میپردازد. یافتهها پیامدهای مهمی برای اعتبار و کاربرد هوش جمعسپاری شده در پیشبینی مالی و اقتصادی دارد.
2. مرور ادبیات
2.1 پیشبینی جمعی
مفهوم «خرد جمعی» نشان میدهد که پیشبینیهای تجمیعشده از یک گروه متنوع میتواند دقیقتر از متخصصان فردی باشد. پلتفرمهایی مانند Metaculus و پروژه قضاوت خوب، این مفهوم را از طریق تکنیکهای مختلف استخراج و تجمیع (مانند میانگین ساده، قواعد امتیازدهی بیزی بازار) عملیاتی میکنند. در حالی که شواهد نشان میدهد پیشبینیهای جمعی از حدس تصادفی بهتر عمل میکنند (Petropoulos و همکاران، ۲۰۲۲)، مقایسه مستقیم با معیارهای آماری در حوزههای پیچیدهای مانند امور مالی اندک است.
2.2 پیشبینی نرخ ارز
پیشبینی نرخ ارز به طور بدنامی دشوار است. معمای Meese و Rogoff (۱۹۸۳) ثابت کرد که مدلهای ساده راهپیمایی تصادفی اغلب در آزمونهای خارج از نمونه برای جفت ارزهای اصلی، از مدلهای اقتصادسنجی پیچیده بهتر عمل میکنند. این امر، راهپیمایی تصادفی را به یک معیار سختگیرانه و محترم برای ارزیابی هر رویکرد پیشبینی جدید، از جمله پیشبینی جمعی تبدیل میکند.
3. دادهها و پلتفرم
این مطالعه از دادههای پیشبینی نرخ ارز پلتفرم Metaculus استفاده میکند. Metaculus میزبان سوالاتی است که کاربران در آن احتمال وقوع رویدادهای آینده را پیشبینی میکنند. پیشبینیهای مرتبط با حرکات نرخ ارز (مانند EUR/USD، GBP/USD) از طریق API پلتفرم استخراج شدند. دادههای نرخ ارز واقعی متناظر برای اعتبارسنجی از پایگاههای داده مالی استاندارد (مانند Bloomberg، Refinitiv) تهیه شد.
4. روششناسی
روششناسی اصلی شامل یک ارزیابی مقایسهای دقت است. پیشبینی جمع (پیشبینی تجمیعشده از کاربران Metaculus) برای یک سطح نرخ ارز آینده، با پیشبینی تولیدشده توسط مدل راهپیمایی تصادفی بدون رانش مقایسه میشود. پیشبینی راهپیمایی تصادفی به سادگی آخرین نرخ ارز مشاهدهشده است: $S_{t+1|t} = S_t$، که در آن $S_t$ نرخ لحظهای در زمان $t$ است. دقت پیشبینی با استفاده از معیارهای خطای استاندارد اندازهگیری میشود:
- میانگین خطای مطلق (MAE): $MAE = \frac{1}{N}\sum_{i=1}^{N} |F_i - A_i|$
- ریشه میانگین مربعات خطا (RMSE): $RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (F_i - A_i)^2}$
که در آن $F_i$ پیشبینی و $A_i$ مقدار واقعی است. معناداری آماری تفاوت در خطاها با استفاده از آزمون Diebold-Mariano آزمایش میشود.
5. نتایج
نتیجه کلیدی واضح و قابل توجه است: مدل راهپیمایی تصادفی بدون رانش، پیشبینیهای نرخ ارز به مراتب دقیقتری نسبت به پیشبینیهای تجمیعشده از جمع Metaculus ارائه میدهد. RMSE و MAE برای پیشبینیهای راهپیمایی تصادفی در تمام جفت ارزها و افقهای پیشبینی مورد ارزیابی، به طور مداوم پایینتر بود. آزمون Diebold-Mariano تأیید کرد که این برتری از نظر آماری معنادار است.
6. بحث
این نتیجه، شور و اشتیاق غیرانتقادی گاهی اطراف پیشبینی جمعی را به چالش میکشد. در حالی که جمعیت ممکن است در حوزههایی با مسائل محدود و قابل تجزیه (مانند تخمین وزن یک گاو) عالی عمل کنند، بازارهای مالی که با نویز بالا، ناپایداری و بازتابندگی (جایی که پیشبینیها بر نتیجه تأثیر میگذارند) مشخص میشوند، ممکن است مکانیسم «خرد» را تحت الشعاع قرار دهند. ممکن است جمعیت در حال گنجاندن سیگنالهای کاذب یا سوگیریهای رفتاری باشد که راهپیمایی تصادفی ساده و فاقد سیگنال از آن اجتناب میکند.
7. نتیجهگیری
برای پیشبینی نرخ ارز، یک معیار آماری سنتی و ساده (راهپیمایی تصادفی) از پیشبینیهای یک پلتفرم پیشبینی جمعی آنلاین پیچیده بهتر عمل میکند. این موضوع بر اهمیت معیارسنجی دقیق قبل از استقرار ابزارهای پیشبینی نوآورانه در کاربردهای حیاتی تأکید میکند. این نشان میدهد که ارزش پیشبینی جمعی ممکن است به شدت وابسته به حوزه خاص باشد و نباید فرض کرد که به سریهای زمانی مالی پیچیده تعمیم مییابد.
8. تحلیل اصلی و نقد کارشناسی
بینش اصلی: این مقاله یک بررسی واقعیت ضروری و هوشیارکننده ارائه میدهد. یافته اصلی—که یک مدل ساده در امور مالی «خرد جمعی» را شکست میدهد—برای کوانتهای باتجربه تعجبآور نیست، اما پادزهری حیاتی برای تبلیغات اغراقآمیز است. این یک اصل بنیادی اقتصادسنجی مالی را تقویت میکند: شکست دادن راهپیمایی تصادفی جام مقدس است و اکثر چیزها در آن شکست میخورند. مشارکت واقعی مقاله، اعمال این معیار بیرحم به یک روششناسی مدرن و پرسر و صدا است.
جریان منطقی: منطق آن صحیح و کلاسیک است: یک هدف سخت (نرخ ارز) را تعریف کنید، سختترین معیار (راهپیمایی تصادفی) را انتخاب کنید و یک مسابقه تمیز برگزار کنید. استفاده از معیارهای خطای جاافتاده (RMSE، MAE) و آزمونهای آماری (Diebold-Mariano) از نظر روششناسی قوی است. این مقاله از الگوی اثباتشده نقد Meese-Rogoff پیروی میکند و به طور مؤثر میپرسد: «آیا این چیز جدید مشکل قدیمی و حلنشده را حل میکند؟» پاسخ یک «نه» واضح است.
نقاط قوت و ضعف: نقطه قوت آن، سادگی منضبط و نتیجه واضح است. نقطه ضعف، که در بحث به آن اعتراف شده، تعمیمپذیری محدود است. این یک مطالعه از یک حوزه (نرخ ارز) روی یک پلتفرم (Metaculus) است. این مطالعه پیشبینی جمعی را برای، مثلاً، رویدادهای ژئوپلیتیک یا منحنیهای پذیرش فناوری، که در آن دادهها پراکنده و مدلها ضعیف هستند، بیاعتبار نمیکند. همانطور که تحقیقات پروژه قضاوت خوب نشان داده است، استخراج ساختاریافته با پیشبینکنندگان آموزشدیده میتواند در چنین حوزههایی بهتر عمل کند (Tetlock & Gardner، ۲۰۱۵). مقاله میتوانست با فرضیهسازی در مورد دلیل شکست جمع قویتر باشد—آیا این به دلیل برازش بیش از حد به نویز، رفتار گلّهای یا عدم تخصص حوزه در میان شرکتکنندگان بود؟
بینشهای عملی: برای فعالان حوزه: به هیچ وجه پلتفرمهای جمعی را به طور کورکورانه جایگزین معیارهای جاافتاده در امور مالی کمی نکنید. از آنها به عنوان یک سیگنال مکمل و احتمالاً مخالف استفاده کنید. برای توسعهدهندگان پلتفرم: این مطالعه دستوری برای نوآوری است. آیا الگوریتمهای تجمیع را میتوان برای فیلتر کردن نویز بهبود بخشید؟ آیا پلتفرمها باید پیشبینکنندگان را بر اساس سوابق اثباتشده خاص حوزه وزندهی کنند، مشابه مفاهیم سرم حقیقت بیزی که توسط Prelec (۲۰۰۴) بررسی شده است؟ برای پژوهشگران: این را تکرار کنید! سایر طبقات دارایی، سایر پلتفرمها (مانند Polymarket) و مدلهای ترکیبی که احساسات جمعی را با مدلهای آماری ترکیب میکنند، همانطور که در پیشبینی اپیدمی پیشنهاد شده است (McAndrew و همکاران، ۲۰۲۴) را آزمایش کنید. مرز جدید، جمع در مقابل مدل نیست، بلکه ادغام هوشمندانه آنهاست.
9. جزئیات فنی و چارچوب ریاضی
مدل راهپیمایی تصادفی بدون رانش برای یک سری زمانی $S_t$ به صورت زیر تعریف میشود: $S_t = S_{t-1} + \epsilon_t$، که در آن $\epsilon_t$ یک جمله خطای نویز سفید با $E[\epsilon_t]=0$ و $Var(\epsilon_t)=\sigma^2$ است. پیشبینی $h$ گام به جلو به سادگی است: $\hat{S}_{t+h|t} = S_t$. این مدل دلالت بر این دارد که بهترین پیشبینی از مقدار آینده، مقدار حال حاضر است و تغییرات غیرقابل پیشبینی هستند.
پیشبینی جمع از Metaculus، $C_{t+h|t}$، یک تجمیع (اغلب یک میانگین وزنی) از پیشبینیهای کاربران فردی برای نرخ ارز در زمان $t+h$ است. مقایسه بر اساس تفاضل خطای پیشبینی است: $d_t = e_{t}^{RW} - e_{t}^{C}$، که در آن $e_{t}^{RW} = (S_{t+h} - \hat{S}_{t+h|t}^{RW})^2$ و $e_{t}^{C} = (S_{t+h} - \hat{C}_{t+h|t})^2$. آماره آزمون Diebold-Mariano است: $DM = \frac{\bar{d}}{\sqrt{\widehat{Var}(\bar{d})/T}} \sim N(0,1)$، که در آن $\bar{d}$ میانگین نمونه تفاضل تابع زیان است.
10. نتایج تجربی و توصیف نمودار
توصیف نمودار (تصوری بر اساس نتایج): یک نمودار میلهای با عنوان «مقایسه خطای پیشبینی: راهپیمایی تصادفی در مقابل جمع Metaculus». محور x جفت ارزهای مختلف (مانند EUR/USD، GBP/USD، USD/JPY) را فهرست میکند. برای هر جفت دو مجموعه میله نشان داده شده است: یکی برای RMSE راهپیمایی تصادفی (به رنگ آبی) و یکی برای RMSE جمع Metaculus (به رنگ قرمز). در تمام جفتها، میلههای آبی (راهپیمایی تصادفی) به وضوح کوتاهتر از میلههای قرمز (جمع) هستند که به صورت کمی دقت برتر راهپیمایی تصادفی را نشان میدهد. یک نمودار خطی ثانویه روی نمودار، سری زمانی تفاضل زیان ($d_t$) را نشان میدهد که حول یک میانگین مثبت نوسان میکند و نشاندهنده برتری پایدار راهپیمایی تصادفی است. ستارههای بالای میلههای قرمز نشاندهنده معناداری آماری در سطح ۵٪ بر اساس آزمون Diebold-Mariano است.
11. چارچوب تحلیل: یک مثال عملی
مورد: ارزیابی یک سیگنال جدید «هوش مصنوعی-محور» برای نرخ ارز. به یک مدیر دارایی یک مدل یادگیری ماشین جدید معرفی میشود که ادعا میکند EUR/USD را پیشبینی میکند. چگونه آن را ارزیابی کنیم؟
مرحله ۱ – تعریف معیار: بلافاصله راهپیمایی تصادفی ($F_{t+1} = S_t$) را به عنوان معیار اصلی تعیین کنید. از یک مدل پیچیده دیگر به عنوان معیار انحصاری استفاده نکنید.
مرحله ۲ – تقسیم داده: از یک دوره خارج از نمونه طولانی (مثلاً ۳-۵ سال داده روزانه که در آموزش مدل یادگیری ماشین استفاده نشده) استفاده کنید.
مرحله ۳ – محاسبه خطا: RMSE را هم برای مدل یادگیری ماشین و هم برای پیشبینی راهپیمایی تصادفی در دوره خارج از نمونه محاسبه کنید.
مرحله ۴ – آزمون آماری: یک آزمون Diebold-Mariano روی تفاضل مربعات خطاها انجام دهید. آیا خطای پایینتر مدل یادگیری ماشین از نظر آماری معنادار است (p-value < 0.05)؟
مرحله ۵ – معناداری اقتصادی: حتی اگر از نظر آماری معنادار باشد، آیا کاهش خطا پس از محاسبه هزینههای معامله برای یک استراتژی معاملاتی از نظر اقتصادی معنادار است؟
این چارچوب که مستقیماً در مقاله اعمال شده است، یک آزمون جهانی برای هر ادعای پیشبینی جدید در امور مالی است.
12. کاربردهای آینده و جهتهای پژوهشی
- مدلهای پیشبینی ترکیبی: به جای رویکرد این یا آن، پژوهش باید بر ترکیب بهینه ارزیابیهای احتمال جمعسپاری شده با مدلهای سری زمانی سنتی متمرکز شود. میانگینگیری بیزی مدل یا روشهای مجموعهای میتوانند از توانایی جمع در ارزیابی رویدادهای نادر و قدرت مدل در ثبت پایداری استفاده کنند.
- طراحی پلتفرم خاص حوزه: پلتفرمهای جمعی آینده برای امور مالی ممکن است به ویژگیهای تخصصی نیاز داشته باشند: آغاز پیشبینیها با خروجی مدلهای کمی، وزندهی پیشبینکنندگان بر اساس عملکرد گذشته در سوالات مالی، و درخواست صریح برای توزیعهای پیشبینی به جای تخمین نقطهای برای ثبت بهتر عدم قطعیت.
- توضیح شکست/موفقیت جمع: پژوهش بیشتری برای تجزیه دلیل شکست جمع در برخی حوزهها (نرخ ارز) و موفقیت در دیگران (اپیدمیها) مورد نیاز است. آیا این ماهیت دادهها، گروه شرکتکنندگان یا چارچوببندی سوال است؟ این نیازمند کار بینرشتهای است که روانشناسی، آمار و تخصص حوزه را ترکیب میکند.
- کاربرد در حوزههای مجاور: رویکرد معیارسنجی باید به سایر حوزههای «سخت-برای-پیشبینی» مانند نوسانپذیری ارزهای دیجیتال، قیمت کالاها یا شگفتیهای شاخصهای کلان اقتصادی گسترش یابد.
13. منابع
- Lehmann, N. V. (2025). Forecasting skill of a crowd-prediction platform: A comparison of exchange rate forecasts. arXiv preprint arXiv:2312.09081v2.
- Meese, R. A., & Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out of sample? Journal of International Economics, 14(1-2), 3-24.
- Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
- Prelec, D. (2004). A Bayesian truth serum for subjective data. Science, 306(5695), 462-466.
- Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
- McAndrew, T., Gibson, G., et al. (2024). Combining crowd-sourced forecasts with statistical models for epidemic predictions. PLOS Computational Biology.
- Atanasov, P., et al. (2022). Distilling the wisdom of crowds: A primer on forecasting tournaments and prediction markets. In The Oxford Handbook of the Economics of Networks.