Основанный на данных подход к пониманию особенностей механизма ценообразования AFL Fantasy

Через несколько недель после начала моего первого сезона в качестве игрока AFL Fantasy я узнал, что в начале сезона нужно накапливать деньги у новичков, чтобы иметь возможность обменивать их на более качественных игроков. Следовательно, понимание того, как цены на игроков рассчитываются каждую неделю, является одним из ключевых компонентов стратегии накопления денег.

В этой статье я представляю модель, которая точно рассчитывает цены конца раунда для конкурса AFL Fantasy. За сезон 2015–2019 гг. было проанализировано более 33 000 ставок на основе данных, полученных со страниц отдельных игроков на footywire.

  • Средняя абсолютная ошибка составляет 330 долларов, что практически является ошибкой округления для среднего игрока стоимостью 400 000 долларов.
  • Приблизительно 99,8% прогнозируемых цен были в пределах +/- 2500 долларов США от фактических цен.

Практическое применение модели включает прогнозирование будущей динамики цен игроков и безубыточности. Модель легко реализуется на электронной таблице. Уравнение и параметры модели ценообразования следующие:

Параметры калибровки весов основаны на предположении, что существует фиксированный шаблон, используемый богами AFL Fantasy, а не генератор случайных чисел за черным ящиком. Хотя модель интуитивно понятна, ее немного сложнее использовать, чтобы произвести впечатление на семью и друзей на барбекю, если вы не человек-калькулятор.

В следующем разделе описаны статистические методы и ключевые понятия, используемые для обратного решения параметров модели.

Гипотеза линейной регрессии

Руководство AFL Fantasy дало несколько подсказок о механизме ценообразования.

Цены игроков будут меняться на основе формулы, учитывающей их прошлые выступления. Все игры, сыгранные Игроком с начала сезона, учитываются при расчете изменения их цен с скользящей шкалой от взвешивания с самой последней игрой, получившей наивысший вес, а также компонент их результативности в прошлом году — если они играли в прошлом году!

Гипотеза для формулы ценообразования выглядит следующим образом: используются данные об игроках, взятые с веб-страниц footywire за 2015–2019 годы, всего более 33 000 точек данных.

Используемый подход заключался в обратном решении коэффициентов с использованием ряда линейных регрессий данных, что постепенно упрощало задачу. Конкретно в начале упражнения не были полностью определены следующие расчеты и параметры -

  • количество очков в игре (k), которые повлияли на счет
  • схема взвешивания, используемая для каждой из самых последних оценок αₖ
  • взвешивание цен, использованных в предыдущем раунде β
  • расчет магического числа Mₙ

Из некоторых первоначальных исследований я также понял, что в вычислении магического числа есть нормализующий аспект, который гарантирует, что совокупные цены игроков до игры равны их совокупным ценам после матча.

Для каждой выполненной линейной регрессии я представил рассчитанные параметры модели и ошибки для каждого сезона, что дает представление о том, как точность модели улучшалась с каждой последующей итерацией. В некоторых случаях анализ конкретных крупных ошибок на уровне игрока помог понять, как выполнять упражнение.

Линейная регрессия №1: определение количества игр (k), которые влияют на счет

Чтобы определить подходящий ретроспективный период, я сначала проанализировал вклад коэффициентов αₖ в окончательную цену уравнения, используя k=10.

  • При k = 10 коэффициенты αₖ изменяются с положительных на отрицательные при k = 5, что означает, что k = 5 является лучшей отправной точкой для количества используемых игр. Существенной разницы в коэффициентах αₖ между двумя рассмотренными случаями нет.

  • В обоих случаях было большое количество предсказательных ошибок. Примечательно, что наблюдалась значительная разница в пропорции наблюдений за ошибками по количеству последних сыгранных матчей из последних 5.

Линейная регрессия № 2: добавление количества сыгранных игр в качестве входных данных модели.

На основе этих наблюдений модель была обновлена, чтобы использовать количество сыгранных игр в качестве входных данных, то есть для каждого раунда будет запускаться до 5 регрессий для расчета параметров для каждой группы по количеству сыгранных игр (для k = 5). .

Таким образом, в случае R04 будет проведено максимум 4 регрессии с учетом игроков, сыгравших 1, 2, 3 или 4 игры за сезон, а в случае R07 будет проведено максимум 5 регрессий.

Я не решался пойти по этому пути, так как думал, что размер когорты некоторых групп будет меньше, что приведет к менее точным прогнозам, однако… Эврика!! Ошибки прогнозирования, превышающие 2500 долларов США, упали до менее 1% для набора данных.

Параметры регрессии для оценки (αₖ) и цены (β) показывают отличную стабильность в каждом раунде и сезоне. Обратите внимание, что из таблицы коэффициентов очков рассчитывается до 5 коэффициентов очков, в зависимости от количества доступных точек данных из 5 последних игр, сыгранных в сезоне на сегодняшний день.

Более внимательное изучение альфа-параметров показало, что они почти идентичны для числа последних 5 игр, сыгранных в среднем.

Хорошо... в этот момент мы совершаем огромный прыжок веры, предположив, что боги AFL Fantasy не являются генератором случайных чисел, и теоретизируем, что веса для каждого из последних 5 совпадений равны [5 4 3 2 1], что подразумевает следующую таблицу значений.

Обратите внимание, как теоретические значения, которые я вывел, почти аналогичны весам, которые были рассчитаны? На данный момент давайте предположим, что небольшие различия связаны с другими факторами, которые можно будет изучить позже в ходе анализа.

Вычисление магического числа с использованием фиксированных весовых коэффициентов αₖ и β

Чтобы подтвердить, имеет ли смысл теория фиксированных весов, я повторно провел регрессию, используя фиксированные веса, и теперь позволив модели напрямую подразумевать магическое число.

Чтобы сделать этот расчет более точным, я переместил предыдущее ценовое выражение из левой части уравнения в правую часть уравнения.

Отмечая, что магическое число предназначено для перебалансировки фактора между раундами, так что для данного раунда совокупность всех предыдущих цен равна равной всем новым ценам, мы можем установить Pn=Pn-₁ и выполнять все наши расчеты на основе агрегатов для данного раунда.

Переписывая уравнение [2] и агрегируя для всех игроков, получаем —

Другими словами, мы рассчитаем средневзвешенные баллы для каждого игрока и найдем агрегаты для этого взвешенного балла и общие предматчевые цены за раунд, которые я выделил синим цветом, чтобы было понятнее.

  • Это очень аккуратный расчет, поскольку нам не нужно знать цены после игры, чтобы найти магическое число.
  • Эта формула не подразумевает, что цены после игры для каждого игрока должны быть равны их ценам до игры.

Здесь не требуется линейная регрессия. Нам нужно только обратное решение для магического числа, учитывая, что мы знаем все остальные значения.

Запустив вычисление, мы получаем магическое число, которое имеет правильную величину. Поскольку нет официального веб-сайта, который публикует эти цифры или документирует точные расчеты, а также много легкодоступной исторической информации, я сравнил свои значения с данными другого энтузиаста AFL Fantasy для серьезных отклонений в сезоне 2019 года. Дата.

Производительность финальной модели

Теперь мы знаем значения для всех составных частей предполагаемой модели. Собрав все вместе, теперь мы можем оценить качество прогнозов модели для следующей цены по сравнению с фактическими ценами, используя исходное уравнение [1].

По фактическому количеству наблюдений по величине абсолютных ошибок — из 33 000 цен, прогнозируемых за 5 сезонов [2015–2019 гг.]

  • средняя абсолютная ошибка составляет 330 долларов США, что практически является ошибкой округления цен до ближайших 1000 долларов США.
  • всего 75 наблюдений с прогнозируемой ошибкой более 2500 долл. США, что составляет 0,22 % от общей суммы — точность 99,8 %!

Заключение и мысли

Линейная регрессия была статистическим методом, используемым для деконструкции ключевых компонентов модели ценообразования игроков AFL Fantasy. Хотя мы использовали ее как инструмент для дальнейшего понимания взаимосвязи между ценами и оценками, окончательная модель не использует ни один из фактических параметров, рассчитанных с помощью регрессий.

Учитывая прогностическую точность предложенной модели, нет настоятельной необходимости добавлять дополнительные функции для улучшения результатов. Конкретно,

  • рекомендации, предоставленные AFL, ссылаются на средние значения за предыдущий сезон в качестве исходных данных, однако эта переменная не была полностью изучена в анализе.
  • модель, по-видимому, не работает для R22, последнего раунда фэнтези-сезона, представленные результаты исключают этот раунд, потому что он дает нестабильные прогнозы — с философской точки зрения меня это устраивает, потому что в последнем раунде единственное, что имеет значение в соревновании набранные очки, а не общая ценность команды.

Существует множество практических приложений для использования модели ценообразования, особенно в отношении прогнозирования динамики цен и безубыточности в течение сезона, что станет темой для изучения в будущем анализе.

Данные для этой модели были взяты со страниц отдельных игроков на footywire. Моделирование было выполнено с использованием R, а код и данные скоро будут доступны на Github.

Особая благодарность моим фэнтезийным приятелям — Джеку, Джастину и Селби — за их руководство и поддержку, которые сделали возможным написание этой статьи.

Другие статьи из этой серии