1. Введение
Прогнозы с открытых онлайн-платформ коллективного прогнозирования, таких как Metaculus, всё чаще используются такими институтами, как Европейский центральный банк, новостными СМИ и политиками, в качестве источника предвидения. Однако существует ограниченное количество доказательств их сравнительной точности по отношению к устоявшимся, традиционным методам прогнозирования. Данное исследование восполняет этот пробел, оценивая точность прогнозов обменных курсов с Metaculus по сравнению с классическим и печально известным труднопреодолимым эталоном: моделью случайного блуждания без тренда. Полученные результаты имеют важные последствия для доверия и применения краудсорсинговой аналитики в финансовом и экономическом прогнозировании.
2. Обзор литературы
2.1 Коллективный прогноз
Концепция «мудрости толпы» предполагает, что агрегированные прогнозы разнородной группы могут быть точнее прогнозов отдельных экспертов. Платформы, такие как Metaculus и Good Judgment Project, реализуют это с помощью различных методов сбора и агрегации (например, простого усреднения, байесовских рыночных правил оценки). Хотя данные свидетельствуют, что коллективные прогнозы превосходят случайное угадывание (Petropoulos et al., 2022), прямые сравнения со статистическими эталонами в сложных областях, таких как финансы, встречаются редко.
2.2 Прогнозирование обменных курсов
Прогнозирование обменных курсов печально известно своей сложностью. Парадокс Миса и Рогоффа (1983) установил, что простые модели случайного блуждания часто превосходят сложные эконометрические модели в тестах на данных, не участвовавших в оценке, для основных валютных пар. Это делает случайное блуждание строгим и уважаемым эталоном для оценки любого нового подхода к прогнозированию, включая коллективный прогноз.
3. Данные и платформа
В исследовании используются данные прогнозов обменных курсов с платформы Metaculus. На Metaculus размещаются вопросы, где пользователи прогнозируют вероятность будущих событий. Соответствующие прогнозы относительно движений обменных курсов (например, EUR/USD, GBP/USD) были извлечены через API платформы. Фактические данные обменных курсов для проверки были получены из стандартных финансовых баз данных (например, Bloomberg, Refinitiv).
4. Методология
Основная методология включает сравнительную оценку точности. Прогноз толпы (агрегированный прогноз пользователей Metaculus) для будущего уровня обменного курса сравнивается с прогнозом, сгенерированным моделью случайного блуждания без тренда. Прогноз случайного блуждания — это просто последнее наблюдаемое значение обменного курса: $S_{t+1|t} = S_t$, где $S_t$ — спот-курс в момент времени $t$. Точность прогноза измеряется с помощью стандартных метрик ошибок:
- Средняя абсолютная ошибка (MAE): $MAE = \frac{1}{N}\sum_{i=1}^{N} |F_i - A_i|$
- Среднеквадратическая ошибка (RMSE): $RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (F_i - A_i)^2}$
Где $F_i$ — прогноз, а $A_i$ — фактическое значение. Статистическая значимость разницы в ошибках проверяется с помощью теста Диболда-Мариано.
5. Результаты
Ключевой результат ясен и поразителен: модель случайного блуждания без тренда обеспечивает значительно более точные прогнозы обменных курсов, чем агрегированные прогнозы от сообщества Metaculus. Значения RMSE и MAE для прогнозов случайного блуждания были стабильно ниже по всем оцениваемым валютным парам и горизонтам прогнозирования. Тест Диболда-Мариано подтвердил, что это превосходство является статистически значимым.
6. Обсуждение
Этот результат ставит под сомнение некритический энтузиазм, который иногда окружает коллективное прогнозирование. В то время как толпа может преуспеть в областях с ограниченными, декомпозируемыми проблемами (например, оценка веса быка), финансовые рынки, характеризующиеся высоким уровнем шума, нестационарностью и рефлексивностью (когда прогнозы влияют на результат), могут подавить механизм «мудрости». Толпа может учитывать ложные сигналы или поведенческие предубеждения, которых избегает простая, свободная от сигналов модель случайного блуждания.
7. Заключение
Для прогнозирования обменных курсов традиционный и простой статистический эталон (случайное блуждание) превосходит прогнозы с сложной онлайн-платформы коллективного прогнозирования. Это подчёркивает важность строгого тестирования на эталонных моделях перед внедрением новых инструментов прогнозирования в критически важных приложениях. Это говорит о том, что ценность коллективного прогнозирования может сильно зависеть от предметной области и не следует предполагать, что она распространяется на сложные финансовые временные ряды.
8. Оригинальный анализ и экспертная критика
Ключевой вывод: Статья даёт отрезвляющую и необходимую проверку реальностью. Основной вывод — о том, что наивная модель побеждает «мудрость толпы» в финансах — не удивляет опытных количественных аналитиков, но является жизненно важным противоядием от хайпа. Он подтверждает фундаментальный принцип финансовой эконометрики: превзойти случайное блуждание — это священный Грааль, и большинству методов это не удаётся. Реальный вклад статьи заключается в применении этого безжалостного эталона к современной, модной методологии.
Логика изложения: Логика статьи обоснованна и классична: определить сложную цель (валютные курсы), выбрать самый жёсткий эталон (случайное блуждание) и провести чистую проверку. Использование устоявшихся метрик ошибок (RMSE, MAE) и статистических тестов (Диболда-Мариано) методологически корректно. Она следует проверенному шаблону критики Миса-Рогоффа, эффективно задавая вопрос: «Решает ли эта новая методика старую, нерешённую проблему?» Ответ — однозначное «нет».
Сильные стороны и недостатки: Сильная сторона — это дисциплинированная простота и ясный результат. Недостаток, признанный в обсуждении, — ограниченная обобщаемость. Это исследование одной предметной области (валютные курсы) на одной платформе (Metaculus). Оно не дискредитирует коллективное прогнозирование для, скажем, геополитических событий или кривых внедрения технологий, где данных мало, а модели слабы. Как показали исследования Good Judgment Project, структурированный опрос обученных прогнозистов может превосходить в таких областях (Tetlock & Gardner, 2015). Статья могла бы быть сильнее, если бы выдвигала гипотезу, почему толпа потерпела неудачу — это было переобучение шуму, стадное поведение или недостаток предметной экспертизы среди участников?
Практические выводы: Для практиков: Не заменяйте слепо платформы коллективного прогнозирования устоявшимися эталонами в количественных финансах. Используйте их как дополнительный, возможно, контртрендовый сигнал. Для разработчиков платформ: это исследование — мандат на инновации. Можно ли улучшить алгоритмы агрегации для фильтрации шума? Следует ли платформам взвешивать прогнозистов по подтверждённым результатам в конкретных областях, аналогично концепциям байесовской сыворотки правды, исследованным Прелецем (2004)? Для исследователей: Повторите это! Протестируйте другие классы активов, другие платформы (например, Polymarket) и гибридные модели, которые комбинируют настроения толпы со статистическими моделями, как это предлагается в прогнозировании эпидемий (McAndrew et al., 2024). Фронт исследований — не толпа против модели, а их интеллектуальная интеграция.
9. Технические детали и математический аппарат
Модель случайного блуждания без тренда для временного ряда $S_t$ определяется как: $S_t = S_{t-1} + \epsilon_t$, где $\epsilon_t$ — ошибка типа белого шума с $E[\epsilon_t]=0$ и $Var(\epsilon_t)=\sigma^2$. Прогноз на $h$ шагов вперёд просто: $\hat{S}_{t+h|t} = S_t$. Эта модель подразумевает, что лучший прогноз будущего значения — это текущее значение, а изменения непредсказуемы.
Коллективный прогноз с Metaculus, $C_{t+h|t}$, представляет собой агрегат (часто взвешенное среднее) индивидуальных прогнозов пользователей для обменного курса в момент времени $t+h$. Сравнение основывается на разнице ошибок прогноза: $d_t = e_{t}^{RW} - e_{t}^{C}$, где $e_{t}^{RW} = (S_{t+h} - \hat{S}_{t+h|t}^{RW})^2$ и $e_{t}^{C} = (S_{t+h} - \hat{C}_{t+h|t})^2$. Статистика теста Диболда-Мариано: $DM = \frac{\bar{d}}{\sqrt{\widehat{Var}(\bar{d})/T}} \sim N(0,1)$, где $\bar{d}$ — выборочное среднее разности потерь.
10. Экспериментальные результаты и описание графика
Описание графика (представлено на основе результатов): Столбчатая диаграмма под названием «Сравнение ошибок прогноза: Случайное блуждание против сообщества Metaculus». На оси X перечислены различные валютные пары (например, EUR/USD, GBP/USD, USD/JPY). Для каждой пары показаны два набора столбцов: один для RMSE случайного блуждания (синий) и один для RMSE сообщества Metaculus (красный). Для всех пар синие столбцы (случайное блуждание) заметно короче красных (сообщество), что количественно иллюстрирует превосходную точность случайного блуждания. Вторичная линейная диаграмма, наложенная на график, показывает временной ряд разности потерь ($d_t$), который колеблется вокруг положительного среднего, указывая на постоянное превосходство случайного блуждания. Звёздочки над красными столбцами обозначают статистическую значимость на уровне 5% по результатам теста Диболда-Мариано.
11. Структура анализа: Практический пример
Кейс: Оценка нового «основанного на ИИ» сигнала по валютным курсам. Управляющему активами предлагают новую ML-модель, которая, как утверждается, прогнозирует EUR/USD. Как её оценить?
Шаг 1 – Определение эталона: Немедленно установите случайное блуждание ($F_{t+1} = S_t$) в качестве основного эталона. Не используйте другую сложную модель в качестве единственного эталона.
Шаг 2 – Разделение данных: Используйте длительный период данных, не участвовавших в обучении (например, 3-5 лет дневных данных, не использованных при обучении ML-модели).
Шаг 3 – Расчёт ошибки: Рассчитайте RMSE как для ML-модели, так и для прогноза случайного блуждания за период, не участвовавший в обучении.
Шаг 4 – Статистическое тестирование: Проведите тест Диболда-Мариано на разностях квадратов ошибок. Является ли более низкая ошибка ML-модели статистически значимой (p-значение < 0.05)?
Шаг 5 – Экономическая значимость: Даже если результат статистически значим, является ли снижение ошибки экономически значимым для торговой стратегии после учёта транзакционных издержек?
Эта структура, напрямую применённая в статье, является универсальной лакмусовой бумажкой для любых новых заявлений о прогнозировании в финансах.
12. Будущие применения и направления исследований
- Гибридные модели прогнозирования: Вместо подхода «или/или» исследования должны быть сосредоточены на оптимальном объединении краудсорсинговых вероятностных оценок с традиционными моделями временных рядов. Байесовское усреднение моделей или ансамблевые методы могут использовать способность толпы оценивать редкие события и силу модели в захвате персистентности.
- Дизайн платформ для конкретных областей: Будущим платформам коллективного прогнозирования для финансов могут потребоваться специализированные функции: инициализация прогнозов выходными данными количественных моделей, взвешивание прогнозистов на основе прошлых результатов в финансовых вопросах и явный запрос прогнозных распределений вместо точечных оценок для лучшего отражения неопределённости.
- Объяснение неудач/успехов толпы: Необходимы дополнительные исследования, чтобы разложить на составляющие, почему толпа терпит неудачу в одних областях (валютные курсы), но преуспевает в других (эпидемии). Это природа данных, пул участников или формулировка вопросов? Это требует междисциплинарной работы, сочетающей психологию, статистику и предметную экспертизу.
- Применение в смежных областях: Подход с эталонным тестированием следует распространить на другие «труднопрогнозируемые» области, такие как волатильность криптовалют, цены на сырьевые товары или неожиданные значения макроэкономических индикаторов.
13. Список литературы
- Lehmann, N. V. (2025). Forecasting skill of a crowd-prediction platform: A comparison of exchange rate forecasts. arXiv preprint arXiv:2312.09081v2.
- Meese, R. A., & Rogoff, K. (1983). Empirical exchange rate models of the seventies: Do they fit out of sample? Journal of International Economics, 14(1-2), 3-24.
- Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown Publishers.
- Prelec, D. (2004). A Bayesian truth serum for subjective data. Science, 306(5695), 462-466.
- Diebold, F. X., & Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3), 253-263.
- McAndrew, T., Gibson, G., et al. (2024). Combining crowd-sourced forecasts with statistical models for epidemic predictions. PLOS Computational Biology.
- Atanasov, P., et al. (2022). Distilling the wisdom of crowds: A primer on forecasting tournaments and prediction markets. In The Oxford Handbook of the Economics of Networks.