Публикации по теме 'reinforcement-learning'


Обучение с подкреплением для чайников вроде меня
На интуитивном уровне довольно легко понять, что такое RL. Это как собаки Павлова — даешь компьютеру лакомство, а он сильнее нажимает на рычаг. Вы ругаете компьютер, и он останавливается. (Но поскольку компьютеры тупые, вам даже не нужно давать ему удовольствие — просто дайте ему крутую положительную награду, и он будет удовлетворен.) В RL вещь, которую вы обучаете, называется агентом. Многие исследования RL проводятся в видеоиграх, потому что они представляют собой контролируемую..

Обучение с подкреплением для начинающих
Я был связан с Data Science около 2 лет. И одно могу гарантировать, так это то, что он всегда преподносит вам сюрпризы. Обучение с подкреплением - это один из тех сюрпризов, которые вы узнаете после того, как закончите с контролируемым (все эти KNN, SVM, лесные вещи) и неконтролируемым обучением (K-средние, иерархическая кластеризация и другие). Возьмем пример: Предположим, мы хотим, чтобы Робо водил машину. Чтобы переехать на автомобиле из одной точки в другую, необходимо..

Станьте мастером ИИ
и изучите множество востребованных навыков 21 века Оглавление: Объясните мне ИИ, как если бы я был ребенком Большая картина моего блога посвящена ИИ Текущий фокус моего блога на обучении с подкреплением (RL) В моем блоге основное внимание уделяется навыкам, необходимым для освоения ИИ или создания нового ИИ Заключение 1. Объясните мне ИИ, как если бы я был ребенком: К настоящему времени, я уверен, вы слышали, что фраза ИИ немного разбрасывалась, но знаете ли вы, что она..

Обобщенная оценка преимуществ в обучении с подкреплением
Компромисс смещения и дисперсии в градиенте политики Методы градиента политики являются одним из наиболее широко используемых алгоритмов обучения в обучении с подкреплением. Они нацелены на оптимизацию параметризованной политики и использование функций ценности, чтобы помочь оценить, как следует улучшить политику. Однако одной из основных проблем обучения с подкреплением, особенно для методов градиента политики, является длительная задержка между действиями и их положительное или..

Выводы по градиенту политики и обучение, ориентированное на любопытство
1. Что такое обучение с подкреплением? Обучение с подкреплением - это область машинного обучения, которая произвела много важных достижений в области ИИ, таких как Alpha Go и OpenAI Five . Игра в го считалась довольно сложной для компьютеров, чтобы учиться и играть на том же уровне, что и профессиональные игроки-люди. AlphaGo важна как первая машина, которая превзошла лучших игроков в го. Важно отметить, что и Alpha Go, и OpenAI Five используют алгоритмы обучения с подкреплением,..

Deepmind: доказательство существования RL в масштабе
Мозг - это доказательство существования общего интеллекта - DeepMind от Google - доказательство того, что мы делаем успехи в его воспроизведении. Успехи DeepMind в обучении с подкреплением с AlphaGo, AlphaZero и т. Д. Открывают путь для следующего поколения технологических компаний, развертывающих крупномасштабные проекты ИИ. DeepMind - далеко не прибыльная компания на бумаге (хотя они и дают Google преимущество), но они показывают миру, как использовать искусственный интеллект и, что..

Основные концепции обучения с подкреплением на примере
Прокатитесь в MountainCar спортзала OpenAI Gym, чтобы изучить теорию RL. Авторы Ханна Петерсон и Джордж Уильямс ([email protected]) Вы можете вспомнить из предыдущего поста в этой серии об обучении с подкреплением (RL), что Марковский процесс принятия решений (MDP) - это математическая основа для моделирования задач RL. Чтобы обосновать математическую теорию MDP на практике, мы определили каждый из ее элементов в контексте игры MountainCar OpenAI Gym. Теперь, когда..