Компромисс смещения и дисперсии в градиенте политики

Методы градиента политики являются одним из наиболее широко используемых алгоритмов обучения в обучении с подкреплением. Они нацелены на оптимизацию параметризованной политики и использование функций ценности, чтобы помочь оценить, как следует улучшить политику.

Однако одной из основных проблем обучения с подкреплением, особенно для методов градиента политики, является длительная задержка между действиями и их положительное или отрицательное влияние на вознаграждение, что чрезвычайно затрудняет оценку вознаграждения. При этом исследователи RL обычно оценивают долгосрочные вознаграждения (доходы) либо с помощью бутстрапированных вознаграждений от эпизодов, либо с помощью функции ценности, а иногда и с тем и с другим. Однако оба метода имеют свои недостатки. Проблема с первым заключается в высокой дисперсии выборок, а во втором — с высоким смещением в функции оценочного значения.

В этой статье мы рассмотрим Generalized Advantage Estimation (GAE), семейство оценок градиента политики, которые значительно уменьшают дисперсию, сохраняя при этом допустимый уровень систематической ошибки.

Содержимое ниже предполагает базовое понимание методов градиента политики. Если вы новичок в обучении с подкреплением, ознакомьтесь с моей предыдущей статьей Основы RL и обзор алгоритма и Глубокое погружение в ванильный градиент политики.

Компромисс предвзятости и дисперсии

Вспомните общую форму градиента политики, которую мы обсуждали в ванильном градиенте политики:

Цель состоит в том, чтобы найти параметры θ для политики, которая максимизирует V(θ). Для этого мы ищем максимумы в V(θ), повышая градиент политики по параметрам θ.

Вышеупомянутая функция представляет собой градиент ванильной политики, который зависит исключительно от доходности R (τ), которая представляет собой сумму вознаграждений за траекторию τ:

Поскольку R(τ) оценивается по множеству выбранных траекторий, метод ванильного градиента политики имеет высокую дисперсию, и для решения этой проблемы исследователи нашли несколько различных способов более стабильной оценки вознаграждения.

Давайте расширим приведенную выше функцию значений в ступенчатую форму:

Ψt — это общее представление вознаграждения, которое может быть одним из следующих:

Варианты 1 и 2 полагаются исключительно на выборочные вознаграждения, а вариант 3 вычитает базовый уровень из вознаграждений. Тем не менее, они по-прежнему страдают от высокой дисперсии во время обучения. Фактически было доказано, что выбор Ψt = Aπ (st , at ) дает наименьшую возможную дисперсию. Здесь функция преимущества определяется как:

Он измеряет, является ли действие лучше или хуже, чем поведение политики по умолчанию. Обратите внимание, что варианты 5 и 6 эквивалентны, если обучение соответствует политике. На практике функция преимущества неизвестна и должна быть оценена, что делает оценку необъективной. GAE делает еще один шаг вперед, игнорируя функцию преимущества с дополнительным параметром γ. Мы рассмотрим более подробно в следующем разделе.

Что такое обобщенная оценка преимуществ (GAE)

Опираясь на оценщик преимущества, GAE вводит параметр γ, который позволяет нам уменьшить дисперсию за счет уменьшения вознаграждения, соответствующего отсроченным эффектам. конечно, это происходит за счет предвзятости. Это похоже на фактор дисконтирования в уравнении Беллмана, который снижает приоритет вознаграждения в далеком будущем. С учетом скидки функция преимущества представляется в виде:

На практике нам необходимо оценить функцию ценности, и это обычно моделируется нейтральной сетью, которая предсказывает значение для определенного состояния (и действие, если мы хотим оценить значение Q). Определим невязку ТД δt со скидкой γ. Отметим, что δt можно рассматривать как оценку преимущества Ψt:

Вспомним методы Temporal Difference (TD), которые мы обсуждали ранее здесь. Здесь мы заменяем значение Q функцией значения (для получения более подробной информации см. уравнение Беллмана). Дисконтированное преимущество можно записать в виде:

В TD мы компенсируем смещение и дисперсию, определяя количество шагов для выборки. Чем больше шагов мы выбираем, тем меньше мы полагаемся на смещенную оценку функции ценности ценой дисперсии. Одна сложная вещь — найти золотую середину в TD, которая обеспечивает идеальный компромисс между смещением и дисперсией. Вот где GAE сияет — вместо эмпирической проверки различных размеров шага, давайте просто используем экспоненциально взвешенное среднее этих оценок k-шагов. Приведенные ниже уравнения показывают функцию дисконтированного преимущества при различном размере шага (k).

Применяя экспоненциально взвешенное среднее, мы получаем окончательную форму GAE:

Обратите внимание, здесь мы ввели еще один параметр λ. Когда λ = 0, GAE по сути такой же, как TD (0), но применяется в контексте оптимизации политики. Он имеет большое смещение, поскольку в значительной степени зависит от функции оценочного значения. Когда λ = 1, это случай ванильного градиента политики с базовым уровнем, который имеет высокую дисперсию из-за суммы условий.

На практике мы устанавливаем 0 ‹ λ ‹ 1, чтобы контролировать компромисс между смещением и дисперсией, точно так же, как параметр лямбда в TD лямбда.

Формирование вознаграждения — еще одна интерпретация GAE

Другой способ интерпретировать GAE — относиться к окружающей среде как к MDP с измененной формой вознаграждения. Предположим, у нас есть преобразованная функция вознаграждения:

Дисконтированная сумма преобразованного вознаграждения (т. е. доход) — это в точности остаток TD, который мы обсуждали выше:

По сути, градиент политики и оптимальная политика не изменились, но вместо этого наша цель состоит в том, чтобы максимизировать дисконтированную сумму вознаграждения. Далее мы можем добавить «более крутую» скидку λ, где 0 ≤ λ ≤ 1, и мы можем получить окончательную форму GAE:

Подводя итог, мы можем рассматривать GAE как тот же градиент политики в MDP с измененной формой вознаграждения, с крутой скидкой γλ, чтобы отсечь шум, возникающий из-за длительных задержек.

Заключение

В этой статье мы обсудили компромисс смещения и дисперсии в RL, особенно в методах градиента политики. Затем мы представили GAE, метод, который позволяет нам уменьшить дисперсию за счет уменьшения вознаграждения с гораздо меньшими затратами на предвзятость. GAE является очень важным оценщиком и широко используется во многих продвинутых алгоритмах, включая VPG, TRPO и PPO.

При этом я хотел бы поблагодарить вас за чтение этой статьи, и я ценю любые отзывы.