Публикации по теме 'reinforcement-learning'


Иерархическое обучение с подкреплением
С фреймворком Options-Critic с использованием табличного Q-Learning Иерархическое обучение с подкреплением разбивает долгосрочный процесс принятия решений на более простые подзадачи. Эта идея очень похожа на разбиение большого количества строк кода на более мелкие функции, каждая из которых выполняет очень специфическую задачу. Давайте рассмотрим пример. Предположим, агент должен убрать или накрыть обеденный стол. Это включает в себя задачу достижения и захвата тарелок. Это задачи..

[Робототехника] Делай, как я могу, а не так, как я говорю: базовый язык робототехнических возможностей
Ссылка на статью: ichter23a.pdf (mlr.press) Ключевым вкладом статьи является предложение нового метода SayCan, который сочетает в себе большие языковые модели с роботизированными навыками и возможностями, чтобы позволить роботам следовать длинным и сложным инструкциям на естественном языке в реальном мире. Ключевые идеи SayCan позволяет роботам выполнять длинные и сложные инструкции на естественном языке, сочетая большие языковые модели (LLM) и роботизированные навыки. LLM..

Лучшие темы Твиттера от специалистов по данным # 28
В тренде на этой неделе: действенная объяснимость в машинном обучении; Как грамотно выполнять многозадачное обучение; Ускоренное обучение с постоянным подкреплением (VaPRL). Каждую неделю мы анализируем самые обсуждаемые темы в Твиттере от влиятельных лиц в области науки о данных и искусственного интеллекта. Следующие темы, URL-адреса, ресурсы и твиты были автоматически извлечены с использованием метода моделирования тем, основанного на Sentence BERT, который мы улучшили, чтобы он..

Обучение с подкреплением как методология обучения этике ИИ
Один из самых больших вопросов при рассмотрении этики искусственного интеллекта (ИИ) заключается в том, как реализовать что-то столь сложное и несогласованное в машинах, которые отличаются высокой точностью. Некоторые говорят, что это невозможно. Этика — это не техническое предприятие , здесь нет расчетов или эмпирических правил, на которые мы могли бы положиться, чтобы быть этичными. Строго говоря, этический алгоритм — это противоречие в терминах . ( Вачнадзе, 2021 ) Отказ от..

Battlesnake Post Mortem
Использование настольного графического процессора для выхода на мировую арену менее чем за неделю. Позвольте мне начать с благодарности замечательным ребятам из Battlesnake за организацию конкурса Оставайся дома и Кодекса , который собрал деньги для Food Banks Canada. Подробную информацию о мероприятии и его повторы можно найти здесь: https://play.battlesnake.com/events/stay-home-and-code/ Букварь Battlesnake Battlesnake - это многопользовательская настольная..

Освоение обучения с подкреплением со стабильными базовыми показателями 3: подробное руководство
Добро пожаловать в статью «Овладение обучением с подкреплением на основе Stable Baselines 3: комплексное руководство», предназначенную для того, чтобы провести вас в увлекательный мир обучения с подкреплением (RL) и универсальный набор инструментов Stable Baselines 3. Это руководство предназначено как для начинающих, так и для начинающих. опытные практики с глубоким практическим пониманием того, как…

Как работает A3C?
Как использовать обучение с подкреплением на основе DQN с использованием нескольких исполнителей. Обучение с подкреплением приобрело большую популярность после исторической победы AlphaGo над чемпионом по го (человеческого) и совсем недавно после того, как OpenAI в сотрудничестве с Blizzard объявила о своей тестовой среде StarCraft 2. Большинство из этих недавних достижений стало возможным благодаря архитектуре под названием «Deep Q-Network». Эта архитектура обеспечивает..