В соавторстве с Кэролин Саплицки, специалистом по обработке и анализу данных в экспертной лаборатории Trustworthy AI Practice, и Митали Банте, специалистом по данным в Expert Labs Trustworthy AI Practice.

Поскольку все больше компаний обращаются к моделям искусственного интеллекта (ИИ) для получения результатов, основанных на данных, необходимо использовать ограничения для обеспечения надежности на протяжении всего жизненного цикла модели. ИИ может полностью раскрыть свой потенциал только тогда, когда доверие может быть установлено на каждом этапе его жизненного цикла. Надежный ИИ законен, этичен и надежен. В этой статье определения справедливости и показатели справедливости объясняются на реальном примере.

ВВЕДЕНИЕ

В ИИ модели используют обучающие данные для выявления тенденций и прогнозирования. В некоторых случаях эти прогнозы различают людей, превращая ИИ в форму статистической дискриминации. Однако эта дискриминация становится нежелательной, когда она ставит определенные группы в невыгодное положение. Определения справедливости определяют исторические систематические недостатки. Метрики справедливости количественно определяют наличие предвзятости в нашей модели.

Часто систематическая погрешность возникает из-за исходных данных. Смещение может входить в жизненный цикл ИИ разными способами: через источник данных (социальное смещение), метод выборки (смещение представления), предварительно обработанные данные (смещение подготовки) и/или другие каналы. Чтобы понять источник смещения в вашей модели, ознакомьтесь с главой Куша Варшни об источниках данных и смещениях в Надежное машинное обучение.

Чтобы предотвратить продолжение несправедливости, на уровне правительства, отрасли и бизнеса используются правила. Например, во многих компаниях действуют положения о гендерном равенстве, одним из которых является система найма, требующая гендерного равенства в процессе найма. Однако может быть трудно понять, как сделать эти процессы справедливыми. Возьмем наш пример с наймом: предположим, что десять женщин подали заявку и двое мужчин. Должны ли мы взять интервью у двух женщин и двух мужчин? Это удовлетворило бы гендерную справедливость, основанную на равных числах. Или мы должны взять интервью у пяти женщин и одного мужчины? Это удовлетворило бы гендерную справедливость, основанную на пропорциональности. Что делает один процесс более или менее справедливым, чем другой?

Определения справедливости и показатели справедливости варьируются в зависимости от предметной области, варианта использования и ожидаемых конечных результатов. Может быть трудно установить, какая метрика оптимальна для каждой модели. В этом блоге будут описаны шесть показателей справедливости: несоизмеримое влияние, разница в статистическом паритете, разница в равных возможностях, разница в средних шансах, индекс Тейла и согласованность. Кроме того, каждая метрика будет выделять интерпретируемый пример. Наконец, мы раскроем информацию о том, как установить пороговые значения показателей для процесса мониторинга справедливости. Это помогает предпринимать действия по смягчению нежелательных и неудачных сценариев для бизнеса.

Чтобы понять наши показатели справедливости, мы будем следовать тому же варианту использования прогнозирования вероятности совершения уголовным ответчиком повторного преступления. Предположим, что у вас есть двоичный классификатор, который принимает набор данных, содержащий информацию о подсудимом, например как пол, раса, семейное положение и количество дел несовершеннолетних.

ОПРЕДЕЛЕНИЯ СПРАВЕДЛИВОСТИ

Чтобы использовать эти метрики, вы должны иметь общее представление о вашей бизнес-проблеме и знать следующее: защищенные атрибуты, привилегированная группа, благоприятная метка и тип обращения. В совокупности они представляют собой определение справедливости для конкретного варианта использования модели.

Примечание. Эти определения используются только в качестве примера для нашего варианта использования. В реальном мире их должна установить компания, которой принадлежит модель, в соответствии с юридическими и бизнес-стандартами.

Защищенный(е) атрибут(ы): атрибут, который разделяет совокупность на группы, результаты которых должны иметь паритет. Примеры включают расу, пол, касту и религию. Защищенные атрибуты не являются универсальными, они зависят от приложения.

  • В нашем случае мы решили рассмотреть два защищенных атрибута: пол и раса.

Привилегированная группа: значение защищенного атрибута, указывающее на группу, которая исторически имела систематическое преимущество. Может быть трудно установить, какие защищенные лица принадлежат к каждой группе. Заинтересованные стороны должны иметь глубокое понимание своей области, чтобы распознавать привилегированные и непривилегированные группы в пределах защищенных категорий. Статистические методы могут быть использованы для понимания разделения защищенных атрибутов. Например, непрерывные переменные, такие как возраст, можно разделить на сегменты. Наряду с этим, расы могут быть объединены для создания различных расовых категорий, таких как кавказцы и некавказцы. Также можно исследовать интерсекциональность, чтобы определить, подвержена ли комбинация подгрупп риску несправедливости.

  • Пол, привилегированный: Женский, непривилегированный: Мужской
  • Примечание. В этом случае группа привилегий — женская; однако в других случаях женщины могут быть лишены привилегий, что подчеркивает важность знания предметной области.
  • Раса, привилегированный: европеоид, непривилегированный: не европеоид
  • Примечание. В этой статье расчет показателей справедливости выполняется только для расы, но его можно воспроизвести и для другого защищенного атрибута (в данном случае пола).

Благоприятный ярлык: ярлык, значение которого соответствует результату, дающему преимущество получателю. Противоположным является неблагоприятный ярлык.

  • В нашем случае лицо с пометкой «Не повторять правонарушения» (Y=0) получит меньший залог. Лицо с ярлыком «Повторное правонарушение» (Y=1) получит больший залог. Если прогнозируется, что ответчик по уголовному делу не совершит повторных преступлений, ему присваивается благоприятный ярлык «Не совершать повторных преступлений» (Y=0). Если предполагается, что подсудимый совершит повторное преступление, ему присваивается неблагоприятный ярлык «Повторное преступление» (Y=1).

Тип случая. Модели могут носить как карательный, так и вспомогательный характер в зависимости от того, как используются прогнозы. Если вмешательство в ситуацию может нанести вред отдельным лицам, ситуация носит карательный характер. Если неспособность вмешаться в ситуацию может нанести вред людям, ситуация является вспомогательной.

  • Наказание: лицо с пометкой "Нет повторного правонарушения" (Y=0) получит меньший залог. Лицо с ярлыком «Повторное правонарушение» (Y=1) получит больший залог.
  • Примечание. Если бы наша модель предоставляла лицам с ярлыком "Рецидивист" (Y=1) бесплатное жилье после тюремного заключения, модель была бы вспомогательной.

ОСНОВНАЯ СТАТИСТИКА

Чтобы понять показатели справедливости, мы сначала определим матрицу путаницы. Матрица путаницы — это сводка прогнозов моделей по сравнению с исходными данными, на которых они были обучены. Здесь количество правильных и неправильных прогнозов можно легко увидеть и сравнить, что приводит к объяснимой достоверности модели.

В нашем примере предположим, что прогнозы нашей модели можно обобщить в приведенной ниже матрице путаницы.

Чтобы объяснить справедливость, мы будем использовать защищенный атрибут расы и благоприятный ярлык «не совершать повторных преступлений» в модели обвиняемого по уголовному делу.

Примечание. Метрики необходимо рассчитывать для всех защищенных атрибутов. Поскольку наша цель — объяснить справедливость, мы рассматриваем эти ценности только в отношении расы. Чтобы обеспечить надежность этой модели, нам нужно будет оценить показатели для пола.

Матрица путаницы при разделении на основе расы:

Европейский (привилегированный):

Некавказцы (непривилегированные):

ГРУППОВЫЕ И ИНДИВИДУАЛЬНЫЕ ПОКАЗАТЕЛИ СПРАВЕДЛИВОСТИ

Справедливость группы — это идея о том, что среднее поведение классификатора должно быть одинаковым для всех групп, определяемых защищенными атрибутами. Здесь мы сравниваем членов привилегированной группы и членов непривилегированной группы. Показатели групповой справедливости, которые мы здесь рассмотрим, следующие: разница статистического паритета, несоизмеримое влияние, разница средних шансов и разница равных возможностей.

Индивидуальная справедливость — это идея о том, что все люди с одинаковыми значениями характеристик должны получать одинаковые предсказанные метки, а люди с похожими характеристиками должны получать одинаковые предсказанные метки. Индивидуальная справедливость включает в себя особый случай двух людей, которые одинаковы во всех отношениях, за исключением значения одного защищенного атрибута (известного как контрфактическая справедливость). Отдельные показатели справедливости включают индекс Тейла и согласованность.

ПОКАЗАТЕЛИ СПРАВЕДЛИВОСТИ

Показатели справедливости группы

Несопоставимое влияние
Этот показатель рассчитывается как отношение частоты благоприятных исходов для непривилегированной группы к частоте благоприятных исходов для привилегированной группы. Идеальным значением этого показателя является 1,0. Значение ‹ 1 означает более высокую выгоду для привилегированной группы, а значение >1 подразумевает более высокую выгоду для непривилегированной группы. Это показатель демографического паритета.

Статистическая разница паритета
Этот показатель рассчитывается как разница в частоте благоприятных исходов, полученных непривилегированной группой, по сравнению с привилегированной группой. Идеальное значение этой метрики равно 0. Значение ‹ 0 означает более высокую выгоду для привилегированной группы, а значение > 0 означает более высокую выгоду для непривилегированной группы. Это показатель демографического паритета.

Разница в равных возможностях
Этот показатель рассчитывается как разница истинно положительных показателей между непривилегированными и привилегированными группами. Истинный положительный показатель — это отношение истинно положительных результатов к общему количеству фактических положительных результатов для данной группы. Идеальное значение равно 0. Значение ‹ 0 означает более высокую выгоду для привилегированной группы, а значение > 0 означает более высокую выгоду для непривилегированной группы.

Средняя разница шансов
Этот показатель рассчитывается как средняя разница доли ложноположительных результатов (ложноположительные/негативные) и доли истинно положительных результатов (истинно позитивные/положительные) между непривилегированными и привилегированными группами. Идеальное значение этой метрики равно 0. Значение ‹ 0 означает более высокую выгоду для привилегированной группы, а значение > 0 означает более высокую выгоду для непривилегированной группы.

Индивидуальные показатели справедливости

Ниже приведен пример таблицы данных и прогнозов:

Индекс Тейла
Этот показатель рассчитывается как обобщенная энтропия выгод для всех лиц в наборе данных с альфа = 1. Он измеряет неравенство в распределении выгод для отдельных лиц. Значение 0 подразумевает идеальную честность. На справедливость указывают более низкие баллы; более высокие баллы проблематичны.

Последовательность

Эта метрика измеряет, насколько похожи прогнозы для похожих экземпляров. Он рассчитывается как разница между 1 и средней разностью предсказаний k-ближайших соседей. Это значение находится в диапазоне от 0 до 1, где 1 является идеальным значением. Вы можете выбрать, какие атрибуты следует учитывать при расчете расстояния. Для простоты возьмем k=2 и предположим, что первые 3 строки очень похожи друг на друга (образуют один кластер), а последние 3 строки образуют один кластер. При реализации в реальности вам нужно решить это, вычислив расстояние между каждой парой наблюдений. Кроме того, это зависит от варианта использования, хотите ли вы учитывать защищенный атрибут или нет при расчете этих расстояний.

ИТАК, КАКОЙ ПОКАЗАТЕЛЬ СПРАВЕДЛИВОСТИ ПОДХОДИТ ВАМ?

Наши примеры показывают, как можно использовать показатели справедливости; однако не все они подходят для этой модели. Заинтересованные стороны должны понимать свой вариант использования, чтобы оптимизировать основные определения справедливости и показатели справедливости. Часто юридические требования и этические стандарты подчеркивают, какие определения справедливости и показатели справедливости являются критическими. Когда возникает неясность в отношении того, какие показатели справедливости использовать, такие ресурсы, как Компас справедливости, могут помочь определить, какие показатели справедливости необходимы для решения рассматриваемой проблемы.

Наш вариант использования требует несоизмеримого воздействия, чтобы отслеживать степень благоприятного исхода для неевропеоидов по сравнению с европейцами.

Примечание. Для целей этого поста мы отслеживаем только гонки с использованием разрозненных воздействий. В нашем варианте использования могут потребоваться другие показатели справедливости для мониторинга других определений справедливости.

ПОРОГОВЫЕ ПОКАЗАТЕЛИ

Теперь у нас есть хорошее понимание правильных определений справедливости и показателей справедливости. Мы можем решить, какое определение и показатель справедливости является правильным, основываясь на нашем понимании бизнеса и исторических данных. Посмотрим, что дальше?

Получив нашу метрику справедливости, мы должны сравнить ее с порогом метрики. Пороговое значение метрики — это числовое значение, которое позволяет вам установить окончательный предел того, насколько систематическая ошибка приемлема для вашей модели, подтверждая наличие или отсутствие несправедливости в данных. Пороговые значения зависят от выбранного определения справедливости и должны быть выбраны перед расчетом показателя справедливости в ваших данных. Это делается для того, чтобы пороговые значения не менялись в зависимости от результатов данных.

Пороги различаются в зависимости от каждого варианта использования. Это может быть связано с государственными, отраслевыми или коммерческими нормами. Важно поговорить с заинтересованными сторонами, чтобы создать фундаментальное бизнес-понимание поставленной задачи. Если компания не уверена в пороговых значениях для своего конкретного варианта использования, существуют организации, которые помогают понять правительственные постановления и передовой опыт для установки сред контроля для решений ИИ.

Пороги могут быть однонаправленными или двунаправленными. Однонаправленные пороги часто используются при фокусировании на непривилегированной группе. Двунаправленный порог гарантирует, что прогнозы модели остаются в диапазоне, который не создает несправедливости ни для одной из групп. Двунаправленные пороги могут даже выявить ошибочные знания предметной области или изменение поведения человека. Чтобы подчеркнуть разницу, мы остановимся на несоизмеримом воздействии.

Пороги, которые мы выбрали для нашего примера использования, были основаны на правиле 80%.

  • Однонаправленный: порог метрики равен 0,8. Здесь нас беспокоит только то, что наша метрика падает ниже 0,8. Значение коэффициента несоизмеримого воздействия менее 0,8 считается несправедливым, а значение более 0,8 — справедливым.
  • Двунаправленный: порог метрики находится в диапазоне от 0,8 до 1,25. Здесь нас беспокоит, если наш показатель упадет ниже 0,8 или выше 1,25. Правило 80% может быть симметрично, если считать справедливым разрозненные коэффициенты воздействия от 0,8 до 1,25.

Однонаправленный

Если вы помните из нашего расчета из приведенного выше примера, мы обнаружили, что наше несоизмеримое влияние составляет 0,75. При 0,75 ‹ 0,8 присутствует смещение. Это означает, что частота прогнозов «Не повторять правонарушения» для неевропеоидов составляет всего 75% от нормы «Не повторно совершать правонарушения» для представителей европеоидной расы. Необходимо принять меры, чтобы смягчить эту предвзятость, прежде чем модель будет запущена в производство.

Двунаправленный

Если вы помните из нашего расчета из приведенного выше примера, мы обнаружили, что наше несоизмеримое влияние составляет 0,75. Здесь наш исходный пример подчеркивает несправедливость для непривилегированной группы (0,75 ‹ 0,8).

Однако предположим, что тарифы для привилегированных и непривилегированных групп поменялись местами:

Здесь непривилегированная группа имеет большее преимущество, чем привилегированная группа. Этот верхний порог сообщает нам, что привилегированная группа может оказаться в невыгодном положении (1,334 > 1,25).

Этот пример подчеркивает предубеждение против привилегированной группы. Это может указывать на изменение человеческого поведения или ошибочное знание предметной области.

В конечном счете, лучший порог справедливости для нашего варианта использования — двунаправленный, поскольку мы не хотим, чтобы ни привилегированные, ни непривилегированные группы существенно не отличались друг от друга.

ЗАКРЫТЬ

Поскольку все больше предприятий используют ИИ, важно внедрить мониторинг справедливости. Модели ИИ влияют на реальных людей и имеют реальные последствия. Мониторинг справедливости предупреждает ключевые заинтересованные стороны о нарушениях стандартов справедливости, предотвращая неэтичный ИИ и деловые конфликты. Заинтересованные стороны бизнеса должны убедиться, что их модели работают справедливо для заданных вариантов использования.

Справедливость в ИИ требует размышлений и сознательных усилий; Определения справедливости и показатели справедливости должны быть выбраны целенаправленно для мониторинга модели. Только с помощью мониторинга ИИ мы можем обойти будущие проблемы, связанные с несправедливостью. Выявив несправедливость на ранней стадии, можно смягчить любую обнаруженную предвзятость до того, как она вызовет проблемы для бизнеса. С этой несправедливостью можно бороться с помощью алгоритмов смягчения предвзятости.

IBM предлагает Watson OpenScale для мониторинга достоверности моделей с помощью базовых компонентов. Эти столпы включают справедливость наряду с объяснимостью, надежностью, конфиденциальностью и прозрачностью. Набор инструментов с открытым исходным кодом IBM AI Fairness 360 исследует предвзятость в моделях машинного обучения на протяжении всего жизненного цикла приложений ИИ. Чтобы увидеть пример метрики справедливости на практике, ознакомьтесь с Руководством для практиков по надежному ИИ.

#MachineLearning #Предварительная обработка #BiasInAI #WatsonOpenScale #CloudPakforData