В предыдущем сообщении блога мы разработали некоторые идеи и теории, необходимые для обсуждения причинно-следственного подхода к обучению с подкреплением. Мы формализовали понятия многоруких бандитов (MAB), марковских процессов принятия решений (MDP) и некоторые причинные понятия. В этой записи блога мы, наконец, перейдем к разработке некоторых идей обучения с причинным подкреплением. Первая из них называется Задачей 1, поскольку CRL может помочь в решении. Это Обобщенное изучение правил. Давайте начнем.

Эта серия

  1. Обучение с причинным подкреплением
  2. Предварительные условия для CRL
  3. Задача 1: Обобщенное изучение политики
  4. Скоро: задание 2

Обобщенное изучение политики

Обучение с подкреплением обычно включает в себя изучение и оптимизацию некоторой политики о том, как взаимодействовать в среде, чтобы максимизировать некоторый сигнал вознаграждения. Типичные агенты обучения с подкреплением обучаются изолированно, используя огромное количество вычислительной мощности и энергетических ресурсов. Грубо говоря, автономное изучение политики включает обучение на фиксированном наборе сопоставленных данных. Онлайн-обучение политике обычно включает обучение на лету, при этом основным ограничением является время. Этот подход требует гибкости, поскольку данные могут изменяться с течением времени без каких-либо указаний на такое изменение для агента. Кроме того, на обучение современных агентов часто уходит много времени. Трансферное обучение направлено на решение этой неэффективности учебного процесса путем применения предыдущих знаний и опыта для повышения эффективности обучения, подобно тому, как люди могут использовать предыдущие знания для решения новых задач. Область причинно-следственных выводов аналогичным образом решает проблему вывода о влиянии разнородных источников данных. Основная проблема в этом процессе заключается в обучении перед лицом ненаблюдаемых (скрытых) факторов, вызывающих затруднения. Теперь мы обсудим некоторые идеи о том, как причинный вывод и моделирование могут быть применены к многоруким бандитам (MAB) и марковским процессам принятия решений (MDP), чтобы повысить эффективность обучения путем комбинирования различных режимов обучения - наблюдения и интервенционного.

Одна из таких работ, посвященных этой проблеме, - это [14], в которой авторы сочетают трансферное обучение в (базовом) обучении с подкреплением с теорией причинного вывода. Это делается в контексте двух многоруких бандитских агентов, которым предоставлен доступ к причинной модели окружающей среды. В случае, когда причинные эффекты не поддаются идентификации, авторы предлагают метод извлечения причинно-следственных связей из доступных знаний, содержащихся в доступных дистрибутивах. Теперь мы развиваем часть теории, представленной в этой статье.

Контекстные бандиты обсуждаются в [15] и представляют собой разновидность MAB, так что агент может наблюдать дополнительную информацию (контекст), связанную с сигналом вознаграждения. Авторы [14] начинают с рассмотрения проблемы обучения вне политики, когда агент A следует некоторой политике do (X = π (𝜀, u)) с контекстом u ϵ U и шумом 𝜀, в результате чего в совместном распределении P (x, y, u). Другой агент, A *, аналогичным образом хотел бы узнать об окружающей среде и использовать опыт A, чтобы ускорить его обучение и быстро выработать оптимальную политику. Эта проблема сводится к выявлению причинного воздействия вмешательства на X, задаваемого 𝔼 [Y | делать (х)]. То есть ожидаемый результат с учетом того, что мы экспериментируем, вмешиваясь в X.

Более сложный сценарий появляется, если мы хотим передать знания от этого контекстного бандита стандартному агенту MAB, скажем, B (см. Рисунок ниже). Если мы обозначим через G_ {XZ} подграф, полученный удалением всех ребер, направленных в X, и всех ребер, направленных из Z, то (Y ⫫ X | U) _ {G} означает, что удаление ребер, направленных из G, с учетом контекст U, мы получаем, что Y не зависит от X. Это полезно, потому что тогда мы можем вывести

(применяя второе правило исчисления). В этом случае средний эффект 𝔼 [Y | do (x)] можно было идентифицировать - не было нескольких причинных структур, вызывающих одно и то же распределение. Авторы отмечают, что do-исчисление предоставляет полный метод определения таких причинно-следственных связей, но бесполезен для построения таких формул для неидентифицируемых запросов. Например, если агент B не может наблюдать контекст, в котором действует A, do-исчисление не может определить средний эффект 𝔼 [Y | do (x)], поскольку разные причинные модели могут вызывать одно и то же распределение P (x, y) при разных наблюдениях. ожидаемые награды. Это очень важная концепция, которую следует отметить, поскольку наивность в процессе передачи в этих условиях может привести к негативному влиянию на производительность цели. На практике, однако, у нас часто нет доступа к базовым SCM заранее, и поэтому мы не можем различить две такие модели.

На этом этапе естественно предположить, что если условие идентифицируемости не выполняется, то предшествующие данные бесполезны в процессе передачи. Примечательно, однако, что [14] показывает, что для неидентифицируемых задач мы все еще можем получить причинно-следственные границы ожидаемого вознаграждения целевого агента. Это достигается за счет использования предшествующих знаний для построения общего SCM, совместимого со всеми доступными моделями. Давайте рассмотрим это некоторую деталь. Если задана стохастическая проблема МАБ, априор которой представлен в виде списка границ ожидаемых вознаграждений, то для любой руки бандита x пусть µ ϵ [l, h]. WLOG, примите 0 ‹l‹ h ‹1 и обозначьте l_max = max {l} в диапазоне l. Обратите внимание, что проблема K-MAB - это просто обобщение проблемы MAB на несколько независимых бандитов. Авторы приводят и доказывают следующую теорему:

Хотя эта теорема кажется очень абстрактной, она говорит нам, что если причинные границы накладывают сильные ограничения на распределение рук, то алгоритм B-kl-UCB (см. Ниже) обеспечивает асимптотические улучшения по сравнению с его неограниченным аналогом (алгоритм kl-UCB [16], здесь не представлены). Это означает, что ограничения трансформируются в разные границы сожаления для агента MAB. Можно было ожидать, что обнаружение таких ограничений за пределами нашей задачи повысит производительность. Приведенный ниже алгоритм должен быть автономным. Для получения дополнительной информации обратитесь к исходному материалу.

Zhang и Bareinboim [17] распространяют аналогичные идеи на область динамических режимов лечения (DTR) и персонализированной медицины. DTR состоит из набора правил принятия решений, контролирующих предоставляемое лечение на любой стадии с учетом состояния пациента. Задача состоит в том, чтобы применить алгоритмы онлайн-обучения с подкреплением к проблеме выбора оптимальных DTR с учетом данных наблюдений, с надеждой, что успех RL в качестве образца эффективности в других процессах принятия решений может быть преобразован в DTR. Обучение политике в данном случае относится к процессу поиска оптимальной политики π, которая максимизирует некоторый результат Y - обычно выздоровление пациента или улучшение показателей здоровья. Однако часто параметры DTR остаются неизвестными, и прямая оптимизация невозможна. Традиционные алгоритмы полагаются на отсутствие ненаблюдаемых искажающих факторов, в то время как методы рандомизации часто невозможны в медицинской области. Мы, конечно, не хотели бы, чтобы врачи случайным образом тестировали стратегии на пациентах, чтобы увидеть, «как все закончится»! Обучение с подкреплением предлагает привлекательный набор методов для DTR, поскольку оно должно предлагать эффективные средства для изучения DTR, уравновешивая исследование пространства состояний и использование вознаграждений. Однако существующие методы RL неприменимы в контексте DTR, поскольку они основаны на свойстве Маркова. DTR явно не являются марковскими, поскольку процедура лечения в какой-то момент в будущем является функцией прошлых процедур. Авторы формализуют это на причинном языке следующим образом:

DTR M * индуцирует некоторое наблюдаемое распределение

ответственность за данные, которые мы наблюдаем, без вмешательства. Политика π для DTR определяет некоторую последовательность стохастических вмешательств.

Эти вмешательства вызывают интервенционное распределение

- это переходное распределение на этапе k, а P_ {x} _ {K} - это распределение вознаграждения по первичному результату. Ожидаемое совокупное вознаграждение тогда

подразумевая, что наша задача найти

Другими словами, мы хотим найти политику, которая находит наилучшую последовательность действий, которая приводит к оптимальному результату. Обозначение V_ π намеренно выбрано для соответствия функциям стоимости в литературе по RL.

Авторы вводят алгоритм UC-DTR, представленный в алгоритме ниже, для оптимизации неизвестного DTR. Этот алгоритм основан на подходе оптимизма перед лицом неопределенности - распространенной стратегии в литературе по обучению с подкреплением. При наличии только сведений о областях состояния и действия UC-DTR достигает почти оптимальных пределов общего сожаления. Это действительно замечательно. Зная только о текущем состоянии и возможных действиях, которые мы можем предпринять, у нас есть алгоритм, позволяющий достичь почти оптимальных результатов всего за несколько шагов! Теперь мы немного углубимся в алгоритм и обсудим общую стратегию, которую он использует. Во-первых, предлагается новая политика π _t с использованием примеров

собраны до текущего эпизода, т.к. То есть принимающий решение агент использует свои текущие знания, чтобы предложить то, что он считает хорошим политическим выбором. Эмпирические оценки ожидаемого вознаграждения и переходных вероятностей рассчитываются и используются для рассмотрения набора правдоподобных DTR с точки зрения доверительной области вокруг этих оценок. Оптимальная политика наиболее оптимистичного DTR в правдоподобном наборе DTR рассчитывается и выполняется для сбора следующего набора выборок. Это оптимизм и неуверенность, о которых мы говорили ранее. Эта процедура повторяется до тех пор, пока не будет достигнут уровень толерантности или конкретный эпизод. Авторы продолжают показывать, что алгоритм UC-DTR имеет кумулятивное сожаление, которое масштабируется с

где эта нотация похожа на нотацию Big-Oh, но также игнорирует логарифмические термины. Формально,

Доказательства этого анализа довольно сложны и приведены в приложении к [17].

Вместе эти теоремы показывают, что UC-DTR почти оптимален, учитывая только области состояния и действия. Авторы также предлагают использовать имеющиеся данные наблюдений для повышения эффективности процедуры онлайн-обучения перед лицом ненаблюдаемых искажающих факторов и невозможности идентификации. Используя данные наблюдений, авторы выводят теоретически обоснованные оценки динамики системы в DTR. Мы включаем полный алгоритм UC-DTR ниже, поскольку он указывает на общий алгоритмический подход к аналогичным проблемам в литературе о причинном подкреплении. Читателю предлагается пройти через шаги, чтобы убедиться, что он соответствует теории, рассмотренной выше. Пояснения к шагам довольно автономны и для краткости далее не обсуждаются.

Мы обсудили некоторую интересную теорию, которая подчеркивает большую часть более поздних работ в этой активной области исследований. Заинтересованным читателям рекомендуется обратиться к [18] для получения информации о расширении динамических режимов лечения. [19] и [20] заинтересуют читателей, мотивированных развитием дальнейшей теории для обобщенного принятия решений и ограничения производительности. Теперь мы готовы обсудить проблему поиска того, где в причинно-следственной системе мы должны вмешаться для достижения оптимальных и эффективных результатов.

Об авторе: Привет, я Сент-Джон и веду блоги о современных технологиях и интересных вещах для моего личного блога stjohngrimbly.com. В настоящее время меня, помимо прочего, интересуют машинное обучение и причинно-следственная связь. Надеюсь, вам понравится это быстрое чтение!

использованная литература

  • [14] Цзюньчжэ Чжан и Элиас Барейнбойм. Передача обучения у многоруких бандитов: причинный подход. Материалы двадцать шестой международной совместной конференции по искусственному интеллекту, IJCAI-17, страницы 1340–1346, 2017.
  • [15] Дж. Лэнгфорд и Т. Чжан. Жадный по эпохе алгоритм контекстных многоруких бандитов. ИнНИПС 2007,2007.
  • [16] Орельен Гаривье и О. Каппе. Алгоритм kl-ucb для ограниченных стохастических бандитов и не только. ArXiv, abs / 1102.2490, 2011.
  • [17] Дж. Чжан и Элиас Барейнбойм. Практически оптимальное обучение с подкреплением в динамических режимах лечения. InNeurIPS, 2019.
  • [18] Дж. Чжан и Элиас Барейнбойм. Разработка оптимальных динамических режимов лечения: подход к обучению с подкреплением причинно-следственной связи. InICML 2020, 2020.
  • [19] Хонгсок Намкун, Рамтин Керамати, С. Ядловски и Эмма Брунскилл. Оценка вне политики для последовательных решений при ненаблюдаемых искажениях. ArXiv, abs / 2003.05623, 2020.
  • [20] Дж. Чжан и Элиас Барейнбойм. Ограничивающие причинно-следственные эффекты для непрерывных результатов. 2020.

Первоначально опубликовано на https://stjohngrimbly.com 14 декабря 2020 г.