Краткий обзор методов объяснения ИИ (XAI)

Интерпретируемость модели

Краткий обзор методов объяснения ИИ (XAI)

Как разработать интерпретируемый процесс машинного обучения

Я знаю, что эта тема обсуждалась много раз. Но недавно я выступал с докладами об интерпретируемости (для SCAI и France Innovation) и подумал, что было бы неплохо включить в эту статью часть моей работы. Больше не нужно доказывать важность объяснимости процесса принятия решений в машинном обучении. Пользователи требуют больше объяснений, и хотя нет единых и строгих определений интерпретируемости и объяснимости, количество научных работ, объясняющих искусственный интеллект (или XAI), растет в геометрической прогрессии.

Как вы, возможно, знаете, существует два способа разработки интерпретируемого процесса машинного обучения. Либо вы разрабатываете внутренне интерпретируемую прогностическую модель, например, с алгоритмами на основе правил, либо используете модель черного ящика и добавляете суррогатную модель для ее объяснения. Второй способ называется апостериорной интерпретируемостью. Существует два типа интерпретируемых моделей постфактум: глобальные модели для описания среднего поведения ваших моделей черного ящика или локальные модели для объяснения индивидуальных прогнозов. В настоящее время существует несколько инструментов для создания апостериорной интерпретируемой модели, большинство из них модельно-агностичны, т.е. могут использоваться независимо от используемого алгоритма.

Приведу самые распространенные из них. Эта статья основана на справочнике Кристофа Молнара: Интерпретируемое машинное обучение. Для иллюстрации методов я использую обычный набор данных Boston Housing. Целью является средняя цена домов, занимаемых владельцами, в 1000 долларов.

График частичной зависимости (PDP).

PDP — это глобальный метод интерпретации, не зависящий от модели. Этот метод показывает вклад отдельных функций в прогностическую ценность вашей модели черного ящика. Его можно применять к числовым и категориальным переменным. Сначала мы выбираем функцию и ее значения сетки (диапазон выбранной функции). Затем значения этого признака заменяются значениями сетки и прогнозы усредняются. Для каждого значения сетки есть точка, соответствующая среднему значению прогнозов. Наконец, кривая рисуется. Основное ограничение заключается в том, что люди не могут понять график с более чем тремя измерениями. Поэтому мы не можем анализировать более двух признаков на частичной диаграмме зависимостей.

На этих графиках мы можем увидеть среднее влияние среднего количества комнат в жилище (RM) и доли низшего класса в населении (LSTAT) на медианную цену. Например, мы можем сделать вывод, что чем меньше количество комнат, тем ниже медианная цена (это кажется последовательным).

Функция plot_partial_dependence уже реализована в модуле проверки пакета scikit-learn.

Накопленные местные эффекты (ALE).

ALE также является глобальным методом интерпретации, не зависящим от модели. Это альтернатива PDP, которая подвержена смещению, когда переменные сильно коррелированы. Например, переменная RM, показывающая количество комнат, сильно коррелирует с площадью дома. Таким образом, RM=7,5 будет нереалистичным для очень маленькой области. Идея ALE состоит в том, чтобы рассматривать экземпляры с похожим значением выбранной переменной, а не подставлять значения для всех экземпляров. Когда вы усредняете прогнозы, вы получаете М-график. К сожалению, М-графики представляют совокупный эффект всех коррелирующих характеристик. Для лучшего понимания привожу пример из Интерпретируемого машинного обучения:

«Предположим, что жилая площадь не влияет на прогнозируемую стоимость дома, а влияет только количество комнат. М-график по-прежнему будет показывать, что размер жилой площади увеличивает прогнозируемое значение, поскольку количество комнат увеличивается вместе с жилой площадью».

ALE вычисляет различия прогнозов вместо среднего значения для небольшого окна (например, с использованием эмпирических квантилей). В следующем примере я рисую ALE для функций RM и LSTAT с 10 окнами.

Вертикальные линии представляют рассматриваемые окна. Эмпирические квантили составлены таким образом, что 10 % особей попадают в каждое окно. К сожалению, нет решения для установки количества бинов, что сильно влияет на интерпретацию.

Для иллюстрации я использовал пакет с открытым исходным кодом ALEPython, доступный на Github.

Индивидуальное условное ожидание (ICE).

ICE — это локальный метод интерпретации, не зависящий от модели. Идея та же, что и в PDP, но вместо того, чтобы строить график среднего вклада, мы строим график вклада для каждого человека. Конечно, основное ограничение такое же, как и у PDP. Более того, если у вас слишком много лиц, сюжет может стать необъяснимым.

Здесь мы видим влияние среднего количества комнат на жилище (RM) и доли низшего класса в населении (LSTAT) на медианную цену для каждого из 506 наблюдений. Опять же, мы видим, что чем меньше количество комнат, тем ниже медианная цена. Однако есть 5 человек, для которых RM демонстрирует противоположное поведение. Эти 5 человек должны быть тщательно проверены, так как они могут указывать на ошибку в базе данных.

Функция plot_partial_dependence уже реализована в модуле проверки пакета scikit-learn.

Локальные интерпретируемые объяснения, не зависящие от модели (LIME).

LIME, как следует из названия, представляет собой независимый от локальной модели метод интерпретации. Идея проста: из нового наблюдения LIME генерирует новый набор данных, состоящий из возмущенных выборок и соответствующих прогнозов базовой модели. Затем к этому новому набору данных подгоняется интерпретируемая модель, которая взвешивается по близости выборочного наблюдения к интересующему наблюдению.

В этом визуальном выводе LIME объясняется прогноз для 42-го наблюдения. В созданном наборе данных прогнозируемые значения находятся в диапазоне от 8,72 до 47,73. Прогнозируемое значение для межсетевого наблюдения составляет 24,99. Мы видим, что значение LSTAT оказывает положительное влияние на прогноз, что подтверждает предыдущие выводы PDP и ICE.

Аддитивные объяснения Шепли (SHAP).

SHAP — это независимый от локальной модели метод интерпретации, основанный на значении Шепли. Ценность Шепли исходит из теории игр, и об этом говорится в нескольких статьях Toward Data Science и других. Я просто хочу напомнить вам, что в этом контексте игра является совместной, а задача — предсказанием, выигрыш — это расстояние между предсказанием и базовым предсказанием ( обычно среднее значение наблюдений), а игроки — это функции. Затем значение Шепли используется для отделения смещения прогноза от базового прогноза среди признаков. Таким образом, реализация каждой функции подразумевает изменение прогноза в положительную или отрицательную сторону. Идея SHAP состоит в том, чтобы представить объяснение ценности Шепли как метод аддитивной атрибуции признаков. Следовательно, это становится линейной моделью, где точка пересечения является базовым прогнозом. Следующее графическое представление SHAP, примененного к XGBoost, иллюстрирует эти объяснения.

На этом рисунке мы видим влияние каждой переменной на 42-й прогноз. Здесь базовый прогноз равен 22,533. Затем переменная INDUS=6,91 сдвигает прогноз на -0,1, переменная B=383,37 сдвигает прогноз на +0,19 и так далее. Мы видим, что самые большие сдвиги связаны с переменными LSTAT и RM, которые являются наиболее важными характеристиками этого набора данных.

Заключение

Локальные модели используются чаще, чем глобальные. Если вам нужно глобальное описание вашей модели, лучше всего использовать алгоритм прогнозирования, который интерпретируется сам по себе. Это не самые точные алгоритмы, но они позволяют дать общее описание сгенерированной модели. Если вам нужна очень точная прогностическая модель, вы обычно хотите иметь возможность объяснить каждый прогноз в отдельности, а не только всю модель в целом. Например, алгоритм самоуправляемого автомобиля должен уметь объяснять каждый из своих прогнозов в случае аварии.

Чтобы быть кратким, я не стал рассказывать о важности функций, взаимодействии функций, ALE второго порядка, KernelSHAP и других методах. Я сделал только краткий обзор, чтобы показать вам, что доступно сегодня для интерпретации ваших моделей черного ящика. Если вы хотите больше узнать об этой теме, рекомендую книгу Кристофа Молнара: Интерпретируемое машинное обучение.

О нас

Advestis — Европейская организация по контрактным исследованиям (CRO) с глубоким пониманием и практикой статистики, а также интерпретируемых методов машинного обучения. Компетенция Advestis охватывает моделирование сложных систем и прогнозный анализ временных явлений.

LinkedIn: https://www.linkedin.com/company/advetis/

Краткий обзор методов объяснения ИИ (XAI)

Интерпретируемость модели