Евровидение, анализ Монте-Карло и обнаружение тактического голосования

Как «Евровидение» с годами стало более тактичным и при этом более сбалансированным.

Ода Евровидению

Для тех из вас, кто не знает, и я держу пари, что это довольно немногие из вас за пределами Европы, песенный конкурс Евровидение - это ежегодный музыкальный конкурс, в котором (вольно) конфедеративная группа (в основном) европейских стран присоединяется друг к другу. в прямом эфире, чтобы предложить друг другу выигрышную песню. В стиле X-Factor соревнование определяется голосом избирателя.

Каждая страна присуждает баллы своим 10 лучшим вариантам в диапазоне от [1,2,3,4,5,6,7,8,10,12]. Значения, отличные от нуля, могут быть присвоены только один раз (например, Франция может дать только одной стране «12» баллов).

Евровидение долгое время было для меня виноватым удовольствием. Я вырос как ребенок третьей культуры в Африке, Европе и Азии. Причудливое смешение поп-культуры на Евровидении, его либеральная атмосфера принятия и открытости, в сочетании с его приземленной помощью в соперничестве, геополитике и шепотах о заговоре, всегда говорило мне. Помимо чисто развлекательной ценности, я всегда считал его довольно репрезентативным симулятором большинства попыток многосторонности: достойным, беспорядочным, неизбежно стратегическим.

Мало того, он созрел для науки о данных. И оказывается, что я не единственный, кто так думает; Предсказание результатов конкурса было первым в истории соревнованием Kaggle, собранным. И, что еще более, к счастью, хорошие люди из Data World поддерживали актуальные данные обо всех голосах, отданных и полученных страной за историю конкурса.

Вопрос исследования: становится ли «хуже» стратегическое голосование?

Продолжая многостороннюю аналогию еще немного, пока я не позволю ей умереть, Евровидение не лишено своих фракций и недоброжелателей. В последние годы мы стали свидетелями все более громкого ворчания (в основном со стороны западноевропейских государств) о том, что конкуренция теперь, по сути, представляет собой игру стратегических блоков для голосования (в основном, из Западной Европы и Восточной Европы), в которой огромное количество малых постсоветских государств в Восточной Европе означает что традиционные победители с давних времен (см. Ирландию, которая все еще является рекордсменом по «наибольшему количеству побед» с момента начала шоу в 1970-х), имеют мало шансов на победу. Эта аргументация даже привела к пересмотру методов распределения баллов в 2006 году, в результате которого была введена судейская коллегия (которая считается более «объективной», чем народное голосование), которая представляет 50% критериев присуждения баллов.

Возникают следующие вопросы:

1.) Происходит ли на Евровидении стратегическое голосование?

2.) Увеличилось ли количество стратегических голосований с годами?

Базу кода Git Hub можно найти здесь: https://github.com/InternetGareth/EuroVision

Изучение данных

Лучше всего взглянуть на структуру данных, прежде чем погрузиться в них. Во-первых, похоже, что данные включают голоса не только из финала, но и из нескольких раундов конкурса (четвертьфиналы, полуфиналы и т. Д.). Об этом стоит помнить при дальнейшем анализе.

Второй момент, о котором следует помнить, - это то, что для всех лет, но особенно если анализ ограничивается только финалами, количество и значения для стран будут меняться с каждым годом.

Наконец, просто для подтверждения, данные отражают несколько произвольную схему баллов для соревнований: {0, 1–8, 10, 12}

Сетевой анализ

Первый подход, который я предпринял, заключался в том, чтобы импортировать все данные в пакет Networkx на Python и применить базовое обнаружение сообщества. Фреймворк голосов может быть представлен как сеть, в которой узлами являются страны, участвующие в соревновании, а края - голоса, отданные и полученные между странами. Учитывая эти параметры, мы можем считать эту сеть двунаправленной и взвешенной.

Обнаружение сообщества

Когда данные были в этом формате, я решил опробовать обнаружение сообщества, чтобы увидеть, действительно ли существуют блоки голосования по географическому признаку. В этом случае я использовал Модульность Лувена в качестве алгоритма обнаружения. По сути, этот алгоритм пытается оптимизировать количество сообществ и их членов по критерию максимального увеличения отношения плотности границ внутри сообщества к тем, которые находятся за пределами сообщества.

Вот результат анализа всех этапов конкурса (полуфинал, финал и т. Д.) За последние 5 лет голосования (2013–2018):

Похоже, есть доля правды в восприятии того, что происходит блокирование голосов между Востоком и Западом. Двумя крупнейшими общинами являются:

Зеленый: преимущественно государства Западной / Северной Европы.
Синий: преимущественно балканские / восточноевропейские государства.

Выявление изменений в сообществах с помощью индекса Жаккарда

Итак, у нас есть некоторые свидетельства того, что в последние несколько лет страны действительно имели тенденцию голосовать блоком. Следующим моим шагом было попытаться придумать способ отслеживания, если эти блоки меняются с течением времени. Я решил использовать Индекс Жаккарда, чтобы сравнить, насколько стабильными сообщества остаются с течением времени. Индекс Жаккара - довольно простая метрика: это пересечение двух множеств над их объединением: (A∩B) / A∪B. И такой простой вопрос, как список стран, дает мне хорошее представление о том, насколько похожи эти сообщества с течением времени. В частности, я составил алгоритм, который:

Обнаруженные сообщества за каждый год (на основе общего количества голосов между всеми странами в этом году и за 3 года до этого)
Для каждого сообщества сопоставьте его "лучшее" соответствие за прошлый год (сообщество с наибольшим значением Jaccard при сравнении)
Для всех матчей рассчитывается средневзвешенный балл Жаккара за этот год.

Это значение затем скажет мне, в какой степени блоки / сообщества для голосования оставались последовательными с течением времени и были ли какие-либо годы, когда происходили большие изменения в поведении при голосовании. Результаты представлены ниже. Обратите внимание: поскольку алгоритм Ловена оптимизирует скорость за счет поиска локальных решений, он будет давать несколько разные результаты для каждого прогона. Чтобы решить эту проблему, обнаружение повторяется 50 раз в течение каждого года, и 95% доверительный интервал задается для каждого средневзвешенного индекса Жаккара:

Это говорит нам о том, что в 2004-2006 годах произошло нечто, радикально встряхнувшее голосующие сообщества, участвующие в соревновании. Как оказалось, этому есть хорошее объяснение; до 2004 г. только страны, вышедшие в финал, могли голосовать за победителя. После 2004 года это было изменено, чтобы позволить странам, не вышедшим в финал, тем не менее голосовать. Так что, похоже, мы находимся там на пути к объяснению стратегического голосования: открыв конкурс, голосуя до стран, которые выбыли из него, голосующие сообщества заметно изменились с 2004 года.

Более глубокий взгляд на стратегическое голосование с использованием анализа Монте-Карло

Теперь я знаю, что существуют отдельные сообщества избирателей, и что в 2004 году они прошли перетасовки. Однако для того, чтобы голосование было действительно стратегическим, можно было бы ожидать, что оно будет взаимным: то есть страны, которые голосуют друг за друга, все время. К счастью, есть отличная статья Дерека Гатерера (2004), в которой описывается метод определения стратегических голосов, основанный на подходе Монте-Карло. Метод состоит из следующих шагов:

Выберите период времени (например, 5 лет)

2. Для каждого года рассчитайте беспристрастную функцию плотности вероятности для всех возможных баллов, данных одной страной другой стране. Это относительно просто: все категории с ненулевым баллом будут иметь каждая 1 / (N-1) шанс, где N - количество проголосовавших стран. Категория с нулевым баллом будет иметь шанс (N-10) / N. Где 10 - количество категорий, отличных от нуля.

3. Запустите моделирование голосов по методу Монте-Карло за эти годы, чтобы вычислить распределение вероятностей общего количества голосов, отданных одной стране одной страной за этот период времени. Опять же, это всего лишь случайная выборка и объединение итоговых баллов из годового распределения. Ниже приведен пример моделирования 2000 прогонов за период с 2000 по 2005 год. Как и следовало ожидать, он сильно смещен к нулю, поскольку большинство стран не смогут выиграть баллы. В среднем вы можете рассчитывать получить в общей сложности около 2,3 голосов от любой другой страны за период с 2000 по 2005 год.

4. Сравните с реальными схемами голосования: если фактические голоса отданы полностью в пределах 5% процентиля распределения, голосование считается «фаворитизмом». Если это вызвано взаимным фаворитизмом другой страны, голосование считается «стратегическим».

Полученные результаты

Используя описанный выше метод, я смог обнаружить стратегическое голосование между странами и их изменения с годами. На приведенном ниже графике показаны (i) нормализованная скорость заключения сделок (стратегические отношения), определяемая как (общее количество сделок / общее количество возможных сделок) и (i) процент стран в стратегических отношениях.

По сути, это две меры для одной и той же тенденции, но их полезно рассматривать отдельно.

Если более внимательно присмотреться к скорости заключения сделок на отдельной оси, мы можем более четко увидеть, что со временем она значительно увеличилась (и измеряет очень похожую тенденцию для% стран в сделке):

Итак, теперь мы знаем, что не только голосующие сообщества значительно изменились с годами, но и взаимное голосование (то есть стратегическое голосование), похоже, также растет. Так были ли правы западные штаты, жаловавшиеся? Ну… да и нет….

Отображение голосующих сообществ

Так кто же эти стратегические союзы? Стоит наметить несколько примеров, чтобы понять, кто с кем работает. Вот стратегические альянсы, обнаруженные с использованием подхода Монте-Карло, с шагом в 5 лет:

1995 to 2000

2000 to 2005

2005 to 2010

Выводы

Изменение правил голосования в 2004 году существенно повлияло на конкуренцию: конкуренция приобрела более стратегический характер, но это, вероятно, в большей степени связано с пересмотром правил голосования в 2004 году, который привел к большей региональной солидарности в голосовании. (а не какие-либо заговорщические попытки со стороны стран Востока!).

Стратегическое голосование увеличилось: за последние годы наблюдалось увеличение количества стратегического голосования, и это имело тенденцию к росту до пересмотра правил 2004 года. Также, похоже, не повлияла попытка ввести «объективные» судейские бригады.

Однако это больше вопрос других стран, играющих с Западом в его собственную игру: стоит отметить, что страны, которые жалуются на это (в основном, западноевропейские участники старшего возраста) изобрели игра в стратегическое голосование: в частности, скандинавский блок для голосования, а также связь между Великобританией, Мальтой и Ирландией.

Я оставлю вам одну последнюю мысль о многих уроках Евровидения, которые сейчас кажутся уместными. Стоит помнить, что падение относительной мощи некоторых государств часто можно рассматривать не как абсолютное падение могущества , а как историю успеха подъема остального мира.