Сравнение значений SHAP для команды, вида спорта, года и т. д.

Как и было обещано в моей предыдущей статье,



Я начинаю больше писать об анализе, который уже вызвал некоторый интерес через Kaggle. В частности, я использую общедоступный набор данных, который содержит подробную информацию о более чем 35 000 человек, принявших участие в Олимпийских играх. Подробности анализа доступны в мой блокнот Kaggle, и здесь я лишь кратко суммирую основные результаты.

Выбрав классификационную модель машинного обучения для прогнозирования вероятности завоевания медали (золотой, серебряной или бронзовой — независимо от того, что для этого анализа), я пришел к следующему результату: модель с достаточно хорошей прогностической способностью, например, на основе ее матрицы путаницы в тесте (невидимые данные):

Модель предсказывает среднюю вероятность медали около 14 %. Однако из-за этого анализа существуют и другие факторы, которые могут увеличивать или уменьшать прогнозируемую вероятность медали (количественно определяемую значениями SHAP):

Например, существует самое большое разнообразие присвоенных значений SHAP, присвоенных различным спортивным командам:

Другими словами, участники из таких команд, как бывший Советский Союз или бывшая Восточная Германия, имеют наибольшую связанную вероятность выиграть медаль, в то время как наименьшая вероятность с участниками из команд Словакии, Туниса, Пуэрто-Рико и Кувейта.