На прошлой неделе в Хьюстоне собрались ведущие демократические кандидаты в президенты, чтобы изложить свои доводы в пользу того, чтобы стать следующим президентом Соединенных Штатов. Нет недостатка во мнениях о том, кто выиграл дебаты, и обычно в течение нескольких дней поступают новые данные опросов, подтверждающие или опровергающие эти теории.

Думал, я стал одержим взглядом на политические выступления и текст под другим углом: обработка естественного языка или НЛП. НЛП — это относительно новая область, которая использует машинное обучение и технический анализ, чтобы попытаться получить информацию и визуализировать шаблоны в тексте.

Я взял расшифровку дебатов, состоявшихся в прошлый четверг, и прогнал ее через довольно стандартные алгоритмы НЛП, чтобы посмотреть, чему мы можем научиться.

Выступающее преимущество

Прежде всего, давайте ответим на вопрос, кто говорил больше всего. Есть несколько способов проанализировать это. Во-первых, мы можем посмотреть на «возможности высказаться», будь то прямой вопрос или опровержение, у кого было больше возможностей высказаться.

Байден имел здесь явное преимущество, почти двузначное. Было бы легко предположить, что вопросы модераторов были несправедливо перекошены в сторону бывшего вице-президента. Но на самом деле, как фавориту, понятно, что другие кандидаты преследовали Байдена, и правила дебатов давали ему шанс дать отпор.

Другой интересный вывод из этого заключается в том, что у Кастро было больше возможностей, чем, казалось бы, требовалось его положение в опросах.

Возможность говорить — это только половина картины. Сколько на самом деле сказал каждый кандидат?

На приведенной выше диаграмме показано количество использованных «значимых» слов. Часто в НЛП мы отфильтровываем короткие слова, не влияющие на смысл предложения, такие как «a, the, of» и т. д.

Выбор слов

Общее количество выступлений и количество слов дает нам возможность оценить объем вклада каждого кандидата в дебаты. Но само по себе это не так уж и интересно.

Интереснее содержание сказанного. Собрав всех выступающих вместе, мы можем создать облако слов дискуссии. Сразу видно, что доминирующей темой было здравоохранение.

Это Wordcloud можно было бы дополнительно улучшить, удалив некоторые бессмысленные термины, но даже в том виде, в котором оно есть, оно дает нам довольно хорошее представление о том, что обсуждалось. Обратите внимание на необычайно высокий рейтинг «профессиональной неудачи». Это результат вопроса, который модератор Джордж Стефанопулос задал каждому кандидату, чтобы рассказать о своих самых больших «профессиональных неудачах».

Мы можем сравнить облако слов выше с отдельными облаками слов-кандидатов, чтобы понять их направленность. Например, ниже представлено облако слов Байдена.

Хотя слова Байдена по-прежнему в значительной степени сосредоточены на здравоохранении, вы можете видеть, что другие слова имеют относительно такое же значение, например, «доступный», «расходы», «государственный выбор». Кроме того, понятие «лунный выстрел» кажется относительно важным.

Сравните это с облаком слов Берни Сандерса.

Эмоциональные измерения

Облака слов дают нам представление об используемых темах и словах, но не в более глубоком контексте. Мы можем использовать различные модели эмоциональной валентности, чтобы получить представление об эмоциях, которые вызывает каждый кандидат.

Одним из таких наборов данных является ISEAR, что означает Международный обзор эмоциональных предшественников и реакций. Используя простую модель логистической регрессии, мы можем предсказать эмоциональное содержание с точностью около 80 процентов (не очень хорошо, но все же интересно).

Модель ISEAR оценивает вероятность того, что утверждение содержит чувство (радость, страх, печаль, отвращение, гнев). Как и следовало ожидать, политики используют много нейтрального языка, который не соответствует этой модели, поэтому мы должны быть скромными в нашей интерпретации данных. Тем не менее, мы видим, что в целом «грусть» регистрируется немного выше, чем другие эмоции. Для большинства кандидатов это был доминирующий тон. Исключениями были Харрис, чей доминирующий тон был радостным, а также О'Рурк и Сандерс, которые вели с гневом.

Еще одна увлекательная модель, которую мы можем построить, основана на Теории моральных основ (подробнее здесь), которая утверждает, что все наши моральные рассуждения делятся на несколько универсальных категорий: справедливость, забота, авторитет, лояльность и святость. Используя набор данных, который связывает слова с моральной основой, мы можем получить представление о моральных проблемах кандидатов на высоком уровне.

Понятно, что доминирующий моральный тон здесь вращается вокруг «заботы», которая прекрасно сочетается с тематическим анализом, показывающим, что доминирующей темой в дебатах было здравоохранение. Обратите внимание, что святость и власть регистрируются меньше всего.

Хотя НЛП не заменит фактическое наблюдение за дебатами и выслушивание кандидатов, оно может быть способом придать больше контекста вашему пониманию и интерпретации того, что произошло.