Введение

В этом проекте наша команда пытается ответить на вопрос, можем ли мы определить объем продаж игры на основе ее атрибутов, таких как платформа, жанр, год и издатель. Мы считаем, что предоставление модели для решения этого вопроса будет большим подспорьем для разработчиков игр, когда они принимают решение о дизайне своей будущей игры. Производитель игры захочет иметь представление о региональных или общих продажах, прежде чем приступить к разработке игры, чтобы обеспечить прибыльность. Наша гипотеза состоит в том, что такие атрибуты, как региональные продажи, вероятно, окажут наибольшее влияние на прогнозирование общих глобальных продаж. Ибо другие атрибуты могут быть не такими эффективными. Наборы данных, которые мы выбрали для нашего проекта, — это «Продажи видеоигр» и «Продажи видеоигр с рейтингами» от Kaggle. Эти два, кажется, единственные два набора данных о продажах игр, которые доступны для общественности. Они содержат такие данные, как региональные продажи, глобальные продажи, платформа, жанр, год и издатель, рейтинг, оценка критиков и многое другое… Таким образом, эти два набора данных — идеальные наборы данных для ответа на наш вопрос. Прежде чем идти дальше, мы хотим сделать одно предположение. Источником двух наборов данных, которые мы используем, является парсинг данных с веб-сайта VG Chartz. Однако нет никакой проверки того, правильно ли эти два набора данных представляют фактические продажи. Нам придется предположить, что эти два набора данных были собраны объектным образом и могут в некоторой степени правильно отражать фактическое количество продаж.

Исследование данных

На приведенной выше тепловой карте показаны продажи десяти ведущих компаний в каждом регионе. Чем темнее ячейка, тем ниже продажи. Nintendo, японская компания, практически лидирует во всем регионе, кроме «другого». Это неудивительно, ведь они очень популярны в мире. На втором и третьем месте расположились Electronic Arts и Activision. Обе компании базируются в США. В глобальном масштабе продажи EA составляют около 1000 миллионов. В то время как у Activision около 700 миллионов. Разрыв между ними около 300 миллионов, но если сравнивать эти две компании с Nintendo, то разрыв огромный. У Nintendo около 1700 миллионов продаж по всему миру, что почти столько же, сколько у EA и Activision.

Глядя на продажи Electronic Arts в регионе «другое», мы ясно видим, что у EA продажи чуть больше, чем у остальных. Что касается игр, выпущенных EA, то у них тоже самое большое количество — ровно 1339. Это объясняет, почему у них больше всего продаж в регионе «другое». По количеству опубликованных игр Activision занимает второе место с количеством 966, но второе место по продажам в категории «другое» занимает Nintendo. Количество игр, выпущенных Nintendo, составляет 696, что означает 7-е место. Подсчеты EA почти в два раза выше, чем у Nintendo, но Nintendo по-прежнему занимает второе место. Эти цифры показывают нам, насколько популярна Nintendo.

Далее, продажи в регионе Японии превзошли наши ожидания. Просто просматривая данные о продажах в регионе Японии, можно увидеть несколько доминирующих компаний, которые имеют более 50 миллионов продаж в регионе. Это Nintendo, Sony Computer Entertainment, Konami Digital Entertainment, Sega и Namco Bandai Games. Одна вещь, которая объединяет эти пять компаний, заключается в том, что они являются компаниями, базирующимися в Японии. Это показывает, что японцы в основном играют в игры, произведенные только японской компанией. Причина такой ситуации в том, что японцы имеют уникальные культурные отличия от других регионов. Это оправдано сортировкой данных на основе продаж в Японии и жанра, это покажет нам, какой жанр является самым продаваемым в регионе Японии. После этого мы видим, что самым продаваемым жанром в Японии является «Ролевая игра», в то время как в Северной Америке, Европе и других странах самым продаваемым жанром является «Экшн», за которым следует «Спорт». Жанр «Ролевые игры» не входит даже в первую пятерку самых продаваемых жанров.

В конечном счете, есть еще одна вещь, которую мы не ожидаем: продажи в Северной Америке, как правило, выше, чем в других регионах. Это означает, что люди в Северной Америке на самом деле играют в больше игр, чем в другой части мира. Население Северной Америки составляет примерно 500 миллионов человек, а население Европы — примерно 700 миллионов, но продажи в этих двух регионах совершенно разные.

Моделирование

Первая модель:

Обычно определенный жанр продается лучше, чем некоторые другие жанры на определенной платформе. Это связано с тем, что некоторые платформы могут дать лучший опыт при игре в определенном жанре. Например, играя в стрелялку на ПК V.S. играть в нее на Xbox. Я считаю, что с мышью, предоставляемой ПК, будет лучше, чем с контроллером. Поэтому мы построили модель, используя регрессор ближайшего соседа из Scikit Learn, чтобы прогнозировать глобальные продажи, используя функции «платформа» и «жанр». Мы попробовали два разных способа кодирования категориальных данных. Во-первых, это горячая кодировка, а во-вторых, просто используется сопоставление чисел. Оба результата не увенчались успехом, поэтому в итоге мы добавили новую функцию — продажи в Северной Америке. Для сравнения мы также используем продажи в Японии в качестве третьего признака. Общий результат удовлетворительный, мы можем получить около 0,8 для R-квадрата. На изображениях ниже показано сравнение при использовании продаж в Северной Америке и Японии в качестве третьей функции соответственно. Красная точка представляет фактические продажи, а синяя точка представляет прогнозируемые продажи.

Мы можем ясно видеть, что на первом изображении меньше несоответствий при использовании продаж в Северной Америке в качестве третьего признака. Это связано с уникальным рынком Японии, о котором мы говорили выше. Что-то, что мы можем сделать, чтобы улучшить оценку, — это «обрезать» данные, вместо того, чтобы использовать все платформы одновременно, мы можем сравнить несколько платформ. Кроме того, мы также можем ограничить количество жанров, потому что некоторые жанры не будут иметь никакой разницы на разных платформах.

Вторая модель:

Как разработчик игр, мы хотим знать, какое сочетание жанра, платформы и рейтинга принесет максимальный доход. Поэтому мы построили модель линейной регрессии, чтобы сделать прогноз. Наша модель основана на предположении, что продажи будут зависеть только от переменных жанра, платформы и рейтинга. Эта модель: Жанры * Платформы * Рейтинги = Глобальные продажи. Все независимые переменные являются категориальными, но глобальные продажи непрерывны. Использование категориальной модели для прогнозирования непрерывного значения будет неточным. Поскольку модель использует регрессию OLS, она будет прогнозировать средние продажи в различных комбинациях жанра, платформы и рейтинга.

Наша модель имеет предельное наблюдение. Это окажет огромное влияние на остальные переменные, когда число комбинаций одного типа будет низким. Например, в наборе данных есть только одна рейтинговая игра AO, 8 EC, 3 RP, 3 K-A. Коэффициенты на них больше, чем на остальной рейтинг. То же самое относится и к платформе. Когда количество платформ низкое, данные не будут точными.

Судя по приведенному выше графику, все популярные игры являются исключением. Самые высокие продажи - это двойная вторая. Большая часть игр находится в диапазоне от 3 до 4 миллионов глобальных продаж игр, 20 лучших игр продаются более 20 миллионов. Несмотря на то, что они составляют 2,5% лучших, но игра из 20 лучших в 5 раз больше, чем остальные отдельные игры.

Модель совершенно не подходит для R-квадрата 0,18, потому что все независимые переменные являются категориальными. Коэффициент для каждой переменной является прибыльным фактором игровой комбинации. Чем выше коэффициент, тем выше прибыль. Для раздела «Жанр» все отрицательные. Наилучший профит — платформер и спортивный жанр. Для раздела «Платформа» лучшая прибыль — PS4 и Xbox one. Для раздела рейтинга лучший профит для взрослых, игра для тех, кому от 17 и старше. Для годового разреза максимальная прибыль игры приходится на 2013 год. Она увеличивается с 2011 по 2013 год, затем начинает снижаться.

Основываясь на наблюдении и результатах, показанных в предыдущей модели, продажи увеличиваются с 2011 по 2013 год, а затем снижаются. В 2013 году у нее больше всего продаж, а это значит, что игра 2013 года с рейтингом M, Platform_PS4 и Racing имеет самые большие продажи в мире. Это можно объяснить тем, что PS4 была представлена ​​в 2013 году. Мы видим, что платформа меняется на временной шкале. Зрелые игры остаются самыми продаваемыми, за исключением 2014 года. В разделе жанров стрелялки остаются популярными на рынке.

На графике выше показано сочетание, которого следует избегать производителю игр, потому что у них самый низкий коэффициент для каждого года. Для раздела платформы график лучше всего отражает историю игры. Срок службы платформы DS — с 2004 по 2013 год, что свидетельствует о снижении продаж игр, когда платформа подходит к концу. В 2014 году у PSP был самый низкий показатель, потому что PSP4 была представлена ​​в 2013 году, а это старшее поколение, которое подходит к концу. Платформа ПК остаются низкими продажами. Xbox 360 — еще одна старая платформа.

В конечном счете, рынок отдает предпочтение зрелым рейтинговым играм, потому что для взрослых приходится наибольшая доля продаж игр. Рынок предпочитает новую платформу. Игры на новой платформе, как правило, имеют более высокие продажи. Несмотря на то, что у большинства людей есть персональные компьютеры, продажи игр на персональных компьютерах остаются низкими. Эта платформа для шоу-игр оказывает огромное влияние на игровой процесс. Жанр съемки — хороший выбор для лучших продаж.

Вывод:

В этом отчете мы представили две модели, в одной из которых использовался K Neighbor Regressor с жанром, платформой и продажами Северной Америки в качестве атрибутов для прогнозирования глобальных продаж. Во второй модели мы использовали регрессию МНК, чтобы помочь нам определить предпочтения игрока при покупке игры. Для модели K Neighbor Regressor мы смогли создать надежную модель с показателем R² 0,8. Для нашей регрессионной модели OLS мы смогли выяснить, что рынок отдает предпочтение новой платформе, зрелому рейтингу и играм-стрелялкам. Хотя в нашей модели могут быть некоторые недостатки, мы считаем, что они, тем не менее, рассказывают нам одну из сторон истории игрового рынка.

Автор: Алан Лау, Гун Ци Чен, Ронгджун Ву

Ссылка: