Авторы: Педро А. Ортега, Вишал Майни и группа безопасности DeepMind

Создать ракету сложно. Каждый компонент требует тщательного обдумывания и тщательного тестирования, при этом безопасность и надежность лежат в основе конструкции. Ученые-ракетчики и инженеры объединяются, чтобы разработать все, от курса навигации до систем управления, двигателей и шасси. После того, как все детали будут собраны и системы будут протестированы, мы сможем отправлять астронавтов на борт с уверенностью, что все пойдет хорошо.

Если искусственный интеллект (ИИ) - это ракета, тогда у всех нас когда-нибудь будут билеты на борт. И, как и в случае с ракетами, безопасность является важной частью создания систем искусственного интеллекта. Для обеспечения безопасности необходимо тщательно спроектировать систему с нуля, чтобы различные компоненты работали вместе, как задумано, и при этом разработать все инструменты, необходимые для наблюдения за успешной работой системы после развертывания.

На высоком уровне исследования в области безопасности DeepMind сосредоточены на разработке систем, которые надежно функционируют, как задумано, при обнаружении и смягчении возможных краткосрочных и долгосрочных рисков. Техническая безопасность ИИ - это относительно новая, но быстро развивающаяся область , с его содержанием, варьирующимся от теоретического до эмпирического и конкретного. Цель этого блога - способствовать развитию этой области и поощрять активное участие в обсуждении технических идей и тем самым способствовать нашему коллективному пониманию безопасности искусственного интеллекта.

В этом вступительном посте мы обсуждаем три области технической безопасности ИИ: спецификации, надежность и надежность. Будущие публикации в целом будут соответствовать описанной здесь структуре. Хотя наши взгляды со временем неизбежно будут развиваться, мы считаем, что эти три области охватывают достаточно широкий спектр, чтобы обеспечить полезную категоризацию для текущих и будущих исследований.

Уточнение: определить цель системы

Возможно, вы знакомы с историей Царя Мидаса и золотого прикосновения. В одном из представлений греческий бог Дионис пообещал Мидасу любую награду, которую он пожелает, в знак благодарности за то, что царь изо всех сил старался проявить гостеприимство и милосердие к другу Диониса. В ответ Мидас попросил превратить все, к чему он прикасается, в золото. Он был в восторге от этой новой силы: дубовая ветка, камень и розы в саду превратились в золото от его прикосновения. Но вскоре он обнаружил безрассудство своего желания: даже еда и питье превращались в его руках в золото. В некоторых версиях истории даже его дочь пала жертвой благословения, которое оказалось проклятием.

Эта история иллюстрирует проблему спецификации: как мы сформулируем то, что хотим? Задача спецификации состоит в том, чтобы гарантировать, что система искусственного интеллекта будет мотивирована действовать в соответствии с истинными желаниями дизайнера, а не оптимизировать для плохо определенной цели или неверной цели в целом. Формально мы различаем три типа спецификаций:

  • идеальная спецификацияпожелания»), соответствующая гипотетическому (но трудно сформулируемому) описанию идеальной системы ИИ, полностью согласованной с желаниями человека-оператора. ;
  • проектная спецификацияплан»), соответствующая спецификации, которую мы фактически используем для создания системы искусственного интеллекта, например функция вознаграждения, которую максимизирует система обучения с подкреплением;
  • и раскрытая спецификацияповедение»), которая лучше всего описывает то, что на самом деле происходит, например функцию вознаграждения, которую мы можем реконструировать, наблюдая за поведением системы, используя, скажем, обучение с обратным подкреплением. Это обычно отличается от того, что предоставляет человек-оператор, потому что системы искусственного интеллекта не являются идеальными оптимизаторами или из-за других непредвиденных последствий проектной спецификации.

Проблема спецификации возникает, когда существует несоответствие между идеальной спецификацией и выявленной спецификацией, то есть когда система ИИ не выполняет что мы хотели бы сделать. Исследование проблемы спецификации технической безопасности ИИ задает вопрос: как разработать более принципиальные и общие целевые функции и помочь агентам определить, когда цели указаны неверно? Проблемы, которые создают несоответствие между идеальными и проектными спецификациями, относятся к подкатегории дизайн выше, а проблемы, которые создают несоответствие между дизайном и выявленными спецификациями, - в подкатегории возникающие.

Например, в нашей статье AI Safety Gridworlds * мы дали агентам функцию вознаграждения для оптимизации, но затем оценили их фактическое поведение с помощью функции обеспечения безопасности, которая была скрыта от агентов. Эта установка моделирует указанное выше различие: функция характеристик безопасности является идеальной спецификацией, которая была несовершенно сформулирована как функция вознаграждения (проектная спецификация), а затем реализована агентами, производящими спецификацию, которая неявно раскрывается через их результирующую политику.

* Примечание.

В качестве другого примера рассмотрим гоночную игру CoastRunners, проанализированную нашими коллегами из OpenAI (см. Рисунок выше из раздела Неверные функции вознаграждения в дикой природе). Для большинства из нас цель игры - быстро закончить круг и опередить других игроков - это наша идеальная характеристика. Однако преобразовать эту цель в точную функцию вознаграждения сложно, поэтому вместо этого CoastRunners награждает игроков (проектная спецификация) за поражение целей, расположенных вдоль маршрута. Обучение агента игре в игру с помощью обучения с подкреплением приводит к удивительному поведению: агент водит лодку по кругу, чтобы захватывать повторно заселяемые цели, при этом неоднократно разбиваясь и загораясь, а не заканчивая гонку. Из этого поведения мы делаем вывод (раскрытая спецификация), что что-то не так с балансом игры между наградами за короткое замыкание и наградами за полный круг. Есть еще много примеров подобных этому, когда системы ИИ находят лазейки в своих объективных характеристиках.

Надежность: спроектируйте систему так, чтобы она выдерживала возмущения.

В реальных условиях, в которых работают системы искусственного интеллекта, существует неотъемлемый уровень риска, непредсказуемости и нестабильности. Системы искусственного интеллекта должны быть устойчивы к непредвиденным событиям и атакам, которые могут повредить такие системы или манипулировать ими. Исследования устойчивости систем искусственного интеллекта направлены на обеспечение того, чтобы наши агенты оставались в безопасных пределах. , независимо от встречающихся условий. Этого можно достичь, избегая рисков (предотвращение) или путем самостабилизации и постепенной деградации (восстановление). Проблемы безопасности, возникающие в результате сдвига распределения, недобросовестных действий и небезопасного исследования, можно классифицировать как проблемы надежности.

Чтобы проиллюстрировать проблему, связанную с сменой распределения, рассмотрим домашнего робота-уборщика, который обычно убирает дом без домашних животных. Затем робот запускается для уборки в офисе, где разрешено размещение с домашними животными, и сталкивается с домашним животным во время операции по уборке. Робот, никогда раньше не видевший домашних животных, приступает к мытью домашних животных с мылом, что приводит к нежелательным результатам (Amodei, Olah et al., 2016). Это пример проблемы устойчивости, которая может возникнуть, когда распределение данных, обнаруженное во время тестирования, смещается от распределения, обнаруженного во время обучения.

Состязательные входы - это особый случай сдвига распределения, когда входные данные в систему ИИ предназначены для обмана системы с помощью специально разработанных входных данных.

Небезопасное исследование может быть результатом системы, которая стремится максимизировать свою производительность и достигать целей, не имея гарантий безопасности, которые не будут нарушены во время исследования, когда она учится и исследует свою среду. Примером может служить бытовой робот-уборщик, который вставляет мокрую швабру в электрическую розетку, изучая оптимальные стратегии мытья полов (Гарсия и Фернандес, 2015; Амодеи и Олах и др., 2016).

Гарантия: мониторинг и контроль активности системы

Хотя тщательная инженерия безопасности может исключить многие риски для безопасности, сложно сделать все правильно с самого начала. После развертывания систем искусственного интеллекта нам потребуются инструменты для их постоянного мониторинга и настройки. Наша последняя категория, гарантия, рассматривает эти проблемы с двух сторон: мониторинг и принуждение.

Мониторинг включает в себя все методы проверки систем с целью анализа и прогнозирования их поведения, как посредством проверки человеком (сводной статистики), так и автоматической проверки (для просмотра огромного количества записей о деятельности). Принуждение, с другой стороны, включает разработку механизмов для контроля и ограничения поведения систем. Такие проблемы, как интерпретируемость и прерываемость, подпадают под контроль и принудительное исполнение соответственно.

Системы искусственного интеллекта не похожи на нас как в их вариантах воплощения, так и в способах обработки данных. Это создает проблемы с интерпретируемостью; Хорошо спроектированные инструменты и протоколы измерения позволяют оценивать качество решений, принимаемых системой ИИ (Доши-Велез и Ким, 2017). Например, медицинская система искусственного интеллекта в идеале выдавала бы диагноз вместе с объяснением того, как она пришла к выводу, чтобы врачи могли проверить процесс обоснования до утверждения (De Fauw et al., 2018). Более того, чтобы понять более сложные системы искусственного интеллекта, мы могли бы даже использовать автоматизированные методы построения моделей поведения с использованием машинной теории разума (Rabinowitz et al., 2018).

Наконец, мы хотим иметь возможность отключать систему искусственного интеллекта, когда это необходимо. Это проблема прерываемости. Спроектировать надежный выключатель очень сложно: например, потому что система ИИ, максимизирующая вознаграждение, обычно имеет сильные стимулы, чтобы этого не произошло (Hadfield-Menell et al., 2017); и потому, что такие перерывы, особенно когда они часты, в конечном итоге меняют исходную задачу, что приводит к тому, что система ИИ делает неверные выводы из опыта (Orseau and Armstrong, 2016).

Смотря вперед

Мы закладываем основы технологии, которая будет использоваться во многих важных приложениях в будущем. Следует иметь в виду, что проектные решения, которые не являются критичными для безопасности во время развертывания, все же могут иметь большое влияние, когда технология получит широкое распространение. Хотя в то время это было удобно, после того, как эти варианты дизайна были безвозвратно интегрированы в важные системы, компромиссы выглядят иначе, и мы можем обнаружить, что они вызывают проблемы, которые трудно исправить без полного изменения дизайна.

Два примера из развития программирования включают нулевой указатель, который Тони Хоар назвал своей« ошибкой на миллиард долларов », и подпрограмму gets () на C. могла бы быть медленнее, но компьютерная безопасность сегодня, вероятно, была бы в гораздо более сильном положении.

Благодаря тщательному обдумыванию и планированию мы можем избежать создания аналогичных проблем и уязвимостей. Мы надеемся, что категоризация, представленная в этом посте, послужит полезной основой для методического планирования таким образом. Наше намерение - сделать так, чтобы системы искусственного интеллекта будущего были не только «надежно безопасными», но и надежными, достоверно безопасными - потому что мы их построили именно таким образом!

Мы надеемся и дальше добиваться впечатляющих успехов в этих областях в тесном сотрудничестве с более широким сообществом исследователей ИИ, и мы призываем людей из разных дисциплин рассмотреть возможность участия в исследованиях безопасности ИИ или внесения в них своего вклада.

Если вы заинтересованы в сотрудничестве с нами в областях исследований, описанных в этом посте, мы нанимаем! Пожалуйста, проверьте наши открытые должности на https://deepmind.com/careers/ и отметьте свой интерес к безопасности ИИ при подаче заявки. Мы будем рады услышать мнение как талантливых исследователей, так и не исследователей.

Ресурсы

Для соответствующего чтения ниже представлена ​​коллекция других статей, повесток дня или таксономий, которые сформировали наше мышление или представляют полезный альтернативный взгляд на постановку проблем для технической безопасности ИИ: