Обучение с подкреплением с обратной связью от человека

ChatGPT стал широко использоваться с момента его выпуска. Построенный на GPT-3.5, большой языковой модели (LLM), ChatGPT имеет интересную возможность вести беседы, в отличие от самого GPT-3.5, который мог только обобщать или генерировать текст из подсказок. Что сделало ChatGPT лучше, так это его способность запоминать прошлые инструкции и разговоры, а это означает, что ему требовалось меньше оперативного проектирования, поскольку он мог лучше понимать разговоры.
Генеративные предварительно обученные преобразователи (GPT), такие как BERT, RoBERTa и другие модели преобразователей, LLM, которые обычно предсказывают следующий токен в последовательности, по существу изучая распределение вероятностей слов. Было показано, что они генерируют текст, очень похожий на человеческий. Однако это может привести к проблеме несовпадения, когда сгенерированный текст не соответствует тому, что задумал пользователь, или является вредным.
Несовпадение — это общий термин в области искусственного интеллекта и машинного обучения, который относится к проблеме модели. не выполняет поставленную перед ним задачу. В этом случае модель может хорошо работать при оценках, но не давать желаемого решения. Одним из примеров рассогласования может быть система распознавания лиц, обученная на наборах данных, которые не являются разнообразными или репрезентативными для населения, для обслуживания которого она предназначена. Это смещение может привести к неточному или предвзятому распознаванию лиц, что может иметь серьезные последствия.
Чтобы решить эту проблему, исследователи использовали подкрепление среди других методов. При обучении с подкреплением модель учится с помощью системы действий и вознаграждений, в которой хорошее поведение вознаграждается, а плохое не поощряется. Включив RLHF, модель может узнать, какие результаты LLM предпочитают люди, что позволит ей генерировать более подходящие токены.

КАК?

В 2020 году Стиннон и соавт. выпустил «Учимся обобщать на основе отзывов людей». В этой статье они стремились решить проблему несоответствия LLM при обобщении сообщений пользователей Reddit. и что хочет пользователь. Поскольку LLM обучаются с целью создания человекоподобного текста, все еще существует проблема, поскольку сгенерированный текст, хотя и может быть похожим на человеческий, может быть не совсем тем, что хочет человек. Возможно, сгенерированный текст не соответствует инструкциям пользователя (галлюцинации), является неправильным или содержит предвзятость (расовую, сексистскую, политическую и т. д.).
Хотя есть несколько решений этой проблемы, их В документе предлагается оптимизировать LLM для обеспечения качества. Это означает изменение целевой функции для определения приоритета качества. Это достигается за счет обучения с подкреплением с обратной связью человека. Здесь агент обучения с подкреплением обучается генерировать текст, который люди считают высококачественным. Обучение с подкреплением обучает агента выполнять задачу, заставляя его учиться на своих действиях в окружающей среде. Агент обучается через систему вознаграждения за действие, в которой за любое предпринятое действие предусмотрена награда (положительная или отрицательная). В этом случае агент получает положительное или отрицательное вознаграждение в зависимости от своего результата (сгенерированного текста). Люди-оценщики помогают определить, является ли результат агента качественным или нет.

В своей работе Stiennon et al. использовал набор данных TL; DR, который содержит сообщения Reddit и их резюме. Обучение проходит в 3 этапа:

Начиная с контролируемого базового уровня, то есть предварительно обученного LLM, точно настроенного с помощью контролируемого обучения на наборе данных TL; DR. Этот базовый уровень используется для создания резюме для сообщений. Резюме из данного поста объединяются в пары и передаются людям, навешивающим ярлыки, которые выбирают, какое из двух резюме они сочтут лучшим.

Используя данные, собранные от людей, навешивающих ярлыки, модель вознаграждения обучается выводить скалярное значение (вознаграждение) при получении публикации и сгенерированной сводки. Модель вознаграждения также представляет собой точно настроенный LLM с замененным выходным слоем, поэтому модель выводит скаляр. В модели используется функция потерь, которая сравнивает качество двух резюме для поста.

Учитывая сообщение x и сводки {y₀, y₁} и учитывая, что человек выбирает сводку yᵢ как лучшую сводку, тогда потеря представлена как

где,

r(x, yi) — прогнозируемое вознаграждение за сводку yi с учетом поста x
rθ(x, y1−i) — прогнозируемая награда за другую сводку y1−i с учетом поста x
σ - сигмовидная функция
E(x,y0,y1,i)∼D представляет математическое ожидание по данным D всех комбинаций x, y0, y1 и i, где i равно 0 или 1, и указывает, какая сводка предпочтительнее для оценщика-человека. ”

Целью модели вознаграждения является получение значений вознаграждения за сгенерированные сводки. Затем вознаграждения используются для обучения политике обучения с подкреплением с помощью оптимизации проксимальной политики (PPO). Политика представляет собой LLM, точно настроенный для создания сводок и использования PPO, он оптимизирован для получения более качественных результатов с точки зрения людей. PPO обновляет политику, используя награды в качестве сигнала. Функция ценности также необходима, поскольку она помогает агенту оценить ожидаемую отдачу, которую он получит, следуя политике. Авторы статьи использовали преобразователь для оценки функции значения PPO.

InstructGPT

Хотя официального документа по ChatGPT не было выпущено, OpenAI выпустила документ по InstructGPT, который, похоже, является основой, на которой был построен ChatGPT. Эта статья под названием «Обучение языковых моделей следованию инструкциям с обратной связью от человека» Ouyang et al. использует ту же стратегию, что и Siennon et al. Документ был выпущен еще в марте 2022 года, примерно за девять месяцев до того, как ChatGPT был выпущен для публики.

В отличие от Siennon et al. которые обучили свою модель генерировать более качественные сводки, цель здесь состояла в том, чтобы согласовать подсказки/инструкции пользователей с выходными данными модели. Таким образом, в отличие от предыдущей статьи, где модель была настроена для обобщения постов с Reddit, здесь цель состояла в том, чтобы улучшить результаты модели для различных задач, одновременно снизив ее склонность к галлюцинациям, генерированию ошибок и выдаче предвзятых результатов.

Процесс обучения также состоит из трех этапов, как показано ниже.

Во-первых, набор данных подсказок и ответов, собранный исследователями OpenAI, использовался для точной настройки GPT-3.5 с помощью контролируемого обучения. Затем эта модель используется для генерации пары ответов на запросы.

Модель с точной настройкой под наблюдением (называемая в документе SFT) также используется в качестве модели вознаграждения (RM) с заменой конечных выходных слоев линейной головкой, поэтому модель выводит одно скалярное значение. Но в отличие от предыдущего, когда Siennon et al. сравнил только два выхода, чтобы увидеть, какой из них лучше, здесь для каждой подсказки сравнивалось от 4 до 9 выходов. Поэтому маркировщиков попросили ранжировать результаты. Они оценивают каждый вывод на основе его общего качества, а также проверяют, содержит ли он, среди прочего, вредный или неприемлемый контент.

Этот новый метод немного меняет функцию потерь. Ранее для каждого поста выполнялось только одно сравнение, поскольку генерировались только два вывода. Но здесь для каждой подсказки генерируется от четырех до девяти выходов, поэтому для их парного сравнения потребуется от 6 до 66 сравнений. В общем, при заданных K выходах необходимо было бы провести сравнения «KC2» (комбинация K 2). Функция потерь для модели вознаграждения меняется на

1/(KC2) добавляется, чтобы все сравнения оказывали одинаковое влияние на потери.
Функция вознаграждения используется для обучения политики для получения лучших ответов. Политика здесь также является тонко настроенным LLM и обучается с использованием алгоритма PPO. Это следует тому же методу, который использовали Siennon et. др.

Рекомендации

Изучение резюме на основе отзывов людей: Нисан Стиннон, Лонг Оуян, Джефф Ву, Дэниел М. Зиглер, Райан Лоу, Челси Восс, Алек Рэдфорд, Дарио Амодей, Пол Кристиано
Обучение языковых моделей следованию инструкциям с обратной связью человека: Лонг Оуян, Джефф Ву, Сюй Цзян, Диого Алмейда, Кэрролл Л. Уэйнрайт, Памела Мишкин, Чонг Чжан, Сандхини Агарвал, Катарина Слама, Алекс Рэй, Джон Шульман, Джейкоб Хилтон, Фрейзер Келтон, Люк Миллер, Мэдди Сименс, Аманда Аскелл, Питер Велиндер, Пол Кристиано, Ян Лейке, Райан Лоу

Обучение с подкреплением с обратной связью от человека

КАК?

InstructGPT

Похожие вопросы