На прошлой неделе в подкасте я взял интервью у Клэр Голник, технического директора Terbium Labs, о кризисе воспроизводимости в науке и его последствиях для специалистов по данным. Мы также завели интересный разговор о философии данных — теме, о которой я раньше особо не задумывался. Интервью, похоже, действительно нашло отклик у слушателей, судя по количеству комментариев, которые мы получили через страницу заметок шоу и Твиттер. Я думаю, что на это есть несколько причин.

Рекомендую послушать интервью, если вы еще этого не сделали. Это невероятно информативно, и Клэр отлично справляется с объяснением некоторых основных моментов кризиса воспроизводимости. Суть в том, что многие исследователи в области естественных и социальных наук сообщают, что не могут воспроизвести результаты друг друга. Опрос Nature 2016 года показал, что более 70% исследователей пытались и не смогли воспроизвести эксперименты другого ученого, а более половины не смогли воспроизвести свои собственные эксперименты. Это относительное открытие имеет далеко идущие последствия для того, как проводятся научные исследования.

Голник предполагает, что одним из способствующих этому факторов является идея «p-хакинга», то есть изучения экспериментальных данных до тех пор, пока не будут найдены закономерности, отвечающие критериям статистической значимости, прежде чем выдвигать конкретную гипотезу о лежащей в основе причинно-следственной связи. P-hacking также известен как «ловля данных» по одной причине: вы работаете в обратном направлении от ваших данных к шаблону, который нарушает предположения, на которых в первую очередь определяется статистическая значимость.

Клэр отмечает, что ловля данных — это именно то, что делают алгоритмы машинного обучения — они работают в обратном направлении от данных к шаблонам или отношениям. Таким образом, ученые, работающие с данными, могут стать жертвами тех же ошибок, что и естествоиспытатели. В частности, P-hacking в науке похож на разработку переобученных моделей машинного обучения. К счастью для специалистов по данным, хорошо известно, что перекрестная проверка, с помощью которой гипотеза генерируется на наборе данных для обучения, а затем проверяется на наборе данных для проверки, является необходимой практикой. Как указывает Голлник, тестирование на проверочном наборе очень похоже на создание очень конкретного прогноза, который вряд ли произойдет, если ваша гипотеза не верна, что, по сути, является научным методом в чистом виде.

Помимо науки, растет беспокойство по поводу кризиса воспроизводимости в машинном обучении. В недавнем сообщении в блоге Пита Уордена говорится о некоторых основных проблемах воспроизводимости, с которыми сталкиваются специалисты по данным и другие практики. Уорден ссылается на итеративный характер нынешних подходов к машинному и глубокому обучению, а также на тот факт, что специалистам по данным нелегко записывать свои шаги на каждой итерации. Кроме того, стек обработки данных для глубокого обучения состоит из множества движущихся частей, и изменения на любом из этих уровней — в структуре глубокого обучения, драйверах графического процессора, обучающих или проверочных наборах данных — могут повлиять на результаты. Наконец, с непрозрачными моделями, такими как глубокие нейронные сети, трудно понять основную причину различий между ожидаемыми и наблюдаемыми результатами. Эти проблемы еще больше усугубляются тем фактом, что во многих опубликованных статьях не упоминаются явно многие из их упрощающих предположений или деталей реализации, что затрудняет другим людям воспроизведение их работы.

Попытки воспроизвести результаты глубокого обучения еще больше затрудняются тем фактом, что мы действительно не знаем, почему, когда и в какой степени глубокое обучение работает. По этой причине во время благодарственной речи на конференции NIPS в 2017 году Али Рахими из Google сравнил современное машинное обучение с алхимией. Он объяснил, что хотя алхимия дала нам металлургию, современное производство стекла и лекарства, алхимики также верили, что могут лечить болезни с помощью пиявок и превращать неблагородные металлы в золото. Точно так же, в то время как глубокое обучение дало нам невероятные новые способы обработки данных, Рахими призвал к тому, чтобы системы, ответственные за принятие важных решений в области здравоохранения и государственной политики, были построены на основе поддающихся проверке, точных и тщательных знаний.

Голлник и Рахими выступают за более глубокое понимание того, как и почему модели, которые мы используем, работают. Это может означать возвращение к основам — к основам научного метода. Голник упомянула в нашем разговоре, что в последнее время она была очарована философией данных, то есть философским исследованием научного знания, что это значит для уверенности в чем-то, и как данные могут подтвердить это. Само собой разумеется, что любое мыслительное упражнение, заставляющее нас сталкиваться с такими трудными вопросами, как объяснимость, причинно-следственная связь и определенность, может иметь большую ценность, поскольку мы расширяем наше применение современных методов машинного обучения. Руководствуясь работами таких философов науки, как Карл Поппер, Томас Кун и даже Дэвид Юм, такой тип глубокого самоанализа наших методов может оказаться полезным для области ИИ в целом.

Что вы думаете? Есть ли у ИИ кризис воспроизводимости? Должны ли мы философствовать о новых инструментах, которые мы создали, или просто начать строить с их помощью?

Подпишитесь на нашу Информационную рассылку, чтобы получать ее еженедельно на свой почтовый ящик.

Первоначально опубликовано на сайте twimlai.com 4 апреля 2018 г.