Рецензия на книгу

Оружие математического разрушения

Как большие данные увеличивают неравенство и угрожают демократии

Однажды я слышал, как Google Research выступал с докладом о теории аукционов, в частности о математической основе рекламных аукционов. Они представили несколько алгоритмов аукциона, их плюсы и минусы, а также мета-вопрос о том, как вы измеряете качество алгоритма.

Они отметили, что хороший аукцион должен быть легко объяснимым и справедливым. Если система слишком сложна, рекламодатели будут думать, что их обманывают.

Я много думал об этом в отличие от науки о данных, представленной в книге Кэти О’Нил «Оружие разрушения математики». В каждой главе рассказывается об отдельном секторе экономики и о том, как мы используем статистику и алгоритмы машинного обучения для оценки людей. Есть главы по:

  • Как коммерческие колледжи нацелены на людей, которым они могут продать сомнительные студенческие ссуды
  • Модели прогнозирования того, кто совершит преступление, и как это влияет на политику охраны правопорядка и вынесения приговоров
  • Тенденция использования личностных тестов для отбора кандидатов на работу и фильтрации резюме

В рекламном аукционе соотношение сил подразумевает, что рекламодатели могут настаивать на базовом уровне справедливости и прозрачности. О’Нил считает, что в большинстве случаев мы используем статистику для увеличения дисбаланса сил между людьми, которые судят, и людьми, которых судят. Нет такой справедливости.

Она повторяет три основных принципа в отношении худших преступников.

  1. Эти алгоритмы непрозрачны. Иногда их держат в секрете по сомнительным причинам. С помощью нейронных сетей мы не всегда можем осмысленно объяснить выбор, который делает алгоритм.
  2. Они достигают своего рода монопольной власти. Их нельзя обжаловать. Люди учатся использовать доминирующий алгоритм.
  3. У них плохие или сломанные петли обратной связи. Если в алгоритме есть ошибка, нам нужно найти ее и исправить. Но некоторые используемые модели обучения не имеют хороших показателей правильности, которые мы могли бы использовать для их исправления.

В качестве примера рассмотрим целевую метрику, которую мы можем использовать для ИИ прогнозирования преступлений. Точной метрикой может быть «количество убийств». Но убийства относительно редки, и из них трудно получить качественные статистические корреляции. Как специалист по данным, я мог бы добавить метрику второй цели «количество арестов», которая встречается чаще, для большей статистической мощности.

Ой! Я случайно создал самоусиливающуюся петлю обратной связи. Больше арестов говорят модели, что нужно послать больше полицейских по соседству, которые затем произведут больше мелких задержек.

Книга пропагандирует этику науки о данных. Она проводит параллели с правовой этикой. Известный правовой принцип гласит: Лучше, чтобы десять виновных сбежали, чем пострадал один невиновный. В науке о данных может быть аналогичный принцип, когда мы готовы пожертвовать некоторой эффективностью, чтобы гарантировать, что невиновных людей не будут судить на основе ложных корреляций. Люди должны иметь право обжаловать решения с помощью алгоритмов - например, апелляции в суде. Люди должны иметь право спрашивать, как алгоритм их оценил - как юридические стандарты доказательств.

Я много думал о том, как инженеры могут заставить это работать и что это будет означать.