Регулирование и этика в области науки о данных и машинного обучения

Машинное обучение меняет нашу жизнь, нравится нам это или нет.

Статистический вывод, обучение с подкреплением, глубокие нейронные сети и другой жаргон в последнее время привлекают большое внимание, и действительно, по фундаментальной причине. Статистический вывод расширяет основу наших решений и изменяет процесс обсуждения при принятии решений. Это изменение составляет существенное отличие от того, что я называю наукой о данных, до последующей эры науки о данных. В эпоху науки о данных решения принимаются на основе данных и алгоритмов. Часто решения принимаются исключительно алгоритмами, а люди составляют важную роль только в процессе сбора, очистки, структурирования данных и настройки структуры для выбора алгоритма (часто сам алгоритм выбирается по метрике). Учитывая это фундаментальное изменение, при принятии решений в эпоху науки о данных важно внимательнее присмотреться как к расширенной базе решений, так и к изменениям в мыслительных процессах при рассмотрении этой расширенной базы.

«Все модели неправильные, но некоторые полезны».

с дополнительным шагом, приводящим к:

«Все модели неверны, некоторые полезны, но некоторые могут быть опасными».

С другой стороны, многочисленные исследования доказывают, что человеческое поведение - и, следовательно, принятие решений - зависит от ситуации [цит]. Когда человеческая точность сравнивается с предсказаниями алгоритмов, предсказуемая точность алгоритмов неизменно выбивает из воды даже экспертное суждение. Исчерпывающее обсуждение этого вопроса выходит за рамки данной статьи, но в Приложении 1 есть несколько хороших источников на тот случай, если читатель захочет продолжить изучение этой темы.

Хорошо, а что дальше? Как и в случае с любым технологическим прогрессом, есть момент, когда некоторые слухи превращаются в голоса по поводу наиболее важных дебатов в западном капитализме: где поставить планку регулирования? Нам нужно больше регулирования? В частности: должны ли мы проверять наши алгоритмы и наши данные, чтобы убедиться, что они удовлетворяют минимальным требованиям к точности, достоверности и предвзятости?

Почему так важно регулирование?

Каждый алгоритм статистического обучения должен удовлетворять трем требованиям, а именно: точности, достоверности и систематической ошибке. Вкратце поясняется, что точность представляет производительность модели по сравнению с принятым базовым уровнем или заранее определенным правильным ответом на основе доступного набора данных. Достоверность рассматривает более широкий контекст того, как собираются данные и в какой степени данные не отражают реальный мир из-за ошибок измерения, сбоев калибровки и т. д. смещение означает ситуации, когда прогнозы систематически оказываются либо низкими, либо высокими для конкретных групп населения, часто обусловленные ручной маркировкой и несовершенным качеством данных, отсутствием данных, смещением выборки и неправильной спецификацией модели в более общем смысле.

Итак, можем ли мы с уверенностью предположить, что алгоритмы следует проверять и что они удовлетворяют упомянутым выше требованиям? В конце концов, я считаю, что алгоритмы, относящиеся к системам принятия решений в социальной сфере и в сфере здравоохранения, требуют регулирования. Однако с точки зрения науки о данных мы должны начать разработку алгоритмов с более широкой точки зрения, а не просто полагаться на MSE и AUC для учета точности. Следуя и расширяя инструменты оценки рисков на основе принципов ответственного машинного обучения², алгоритмы должны гарантировать, что наши прогнозы удовлетворяют следующим требованиям:

  1. Процессы обработки и анализа данных и машинного обучения следует максимально дополнить за счет вмешательства человека путем разработки систем, которые включают человека в цикл проверки. Более того, особенно для инструментов оценки риска, одной из критических проблем, связанных с инструментами принятия статистических решений, является феномен предвзятости автоматизации, когда информация, представленная машиной, рассматривается как сама по себе заслуживающая доверия и не вызывающая скептицизма. Это может привести к тому, что люди будут чрезмерно полагаться на точность или правильность автоматизированных систем. В конце концов, эксперты в предметной области должны иметь возможность проверить результаты и процесс. Они также должны быть достаточно образованными, чтобы понимать основные предположения, которые сопровождали разработку алгоритмов.
  2. Систематическая ошибка в статистических моделях должна быть измерена и уменьшена настолько, насколько позволяет допуск к отклонениям в оценках. Одним из важнейших факторов, который следует учитывать при обучении алгоритмов инструментам оценки риска, является так называемая проблема смещения пропущенной переменной. Смещение пропущенной переменной возникает всякий раз, когда модель обучается на данных, которые не включают все соответствующие причинные факторы.
  3. Инструменты не должны объединять несколько разных прогнозов. Для разных рисков следует измерять разные баллы, а не один риск, отражающий риск различных результатов.
  4. Воспроизводимость модели. Чтобы сделать модель машинного обучения воспроизводимой, требуется процесс абстрагирования ее составляющих компонентов, а именно данных, конфигурации / среды и вычислительного графа. Если абстрагировать все эти три точки, можно получить основу для воспроизводимости модели. Часто бывает важно решить, какой будет уровень абстракции, поскольку можно сосредоточиться на построении очень сложных слоев для абстрагирования нескольких библиотек машинного обучения с определенными форматами ввода / вывода данных.
  5. Доверие через конфиденциальность. Конфиденциальность на должном уровне. Одним из основных способов завоевать доверие пользователей и соответствующих заинтересованных сторон является демонстрация наличия надлежащих процессов и технологий для защиты личных данных. Технологи должны приложить явные усилия, чтобы понять потенциальные последствия задействованных метаданных и могут ли метаданные раскрыть неожиданную личную информацию от соответствующих пользователей или заинтересованных сторон.

Дайте мне проблемы, а не решения, хотя иногда помогает последнее.

Для решения этих проблем и снижения рисков для бизнеса (включая внедрение этических норм) компаниям, разрабатывающим оценку рисков с помощью алгоритмов, следует потратить время на:

Во-первых, надлежащий анализ данных для выявления дисбаланса данных должен выполняться на этапе Исследовательского анализа данных (EDA). Более того, очень важно выполнить корреляционный анализ функций, а также правильно сбалансировать разделение «поезд-проверка-тест».

Во-вторых, объяснимость модели имеет решающее значение, особенно для сложных наборов данных, которые включают так называемые черные модели (усиление градиента, нейронные сети и т. д.). С этой целью были разработаны различные методологии, включая такие модели, как аддитивные объяснения Шапли (SHAP) и LIME. Первый основан на идее о том, как возможные коалиции способствуют влиянию группы в целом, концепции, заимствованной из теории кооперативных игр, тогда как второй фокусируется на локальных приближениях. (LIME работает быстрее, но менее точен, на данный момент вне области видимости). Более того, существует несколько отличных библиотек с открытым исходным кодом, таких как Pachyderm и ModelDB, которые могут помочь специалистам по обработке данных и инженерам по машинному обучению добиться прозрачности и воспроизводимости моделей.

В-третьих, при запуске модели в производство необходимо включить непрерывную диагностику производительности, чтобы фиксировать любые отклонения от набора данных, обученного модели. Например, изучение поведения системы должно включать в себя заносы, в которых со временем происходит коррозия. Более того, для регистрации отклонения данных также следует использовать такие баллы, как расхождение KL и Wasserstein.

Наконец, при диагностике критических событий и принятии соответствующих мер всегда следует учитывать предвзятость автоматизации. Результаты должны быть прочитаны экспертами в предметной области, которые могут критически поставить под сомнение результаты и понять ввод / вывод и последующий процесс.

Ps 1: Содержание этой статьи направлено на то, чтобы проинформировать читателя о довольно активной теме, которую рано или поздно должны будут затронуть все специалисты по анализу данных. Я попытался охватить большинство материалов, которые использовал в качестве справочных материалов для читателей, которые хотят еще больше углубить свои знания.

Пс 2: Пожалуйста, свяжитесь со мной для исправлений и вопросов для обсуждения.

Ссылки

[1]: Афоризм вообще приписывают статистику Джорджу Боксу.

[2]: https://ethical.institute/

[3]: https://standards.ieee.org/industry-connections/ecpais.html

[4]: https://sloanreview.mit.edu/article/the-regulation-of-ai-should-organizations-be-worried/

[5]: https://sloanreview.mit.edu/article/the-risk-of-machine-learning-bias-and-how-to-prevent-it/

[6]: https://hbr.org/2018/11/why-we-need-to-audit-algorithms

[7]: https://www.blog.google/technology/ai/ai-principles/