Публикации по теме 'reinforcement-learning'
Обучение с подкреплением для чайников вроде меня
На интуитивном уровне довольно легко понять, что такое RL. Это как собаки Павлова — даешь компьютеру лакомство, а он сильнее нажимает на рычаг. Вы ругаете компьютер, и он останавливается. (Но поскольку компьютеры тупые, вам даже не нужно давать ему удовольствие — просто дайте ему крутую положительную награду, и он будет удовлетворен.) В RL вещь, которую вы обучаете, называется агентом.
Многие исследования RL проводятся в видеоиграх, потому что они представляют собой контролируемую..
Обучение с подкреплением для начинающих
Я был связан с Data Science около 2 лет. И одно могу гарантировать, так это то, что он всегда преподносит вам сюрпризы.
Обучение с подкреплением - это один из тех сюрпризов, которые вы узнаете после того, как закончите с контролируемым (все эти KNN, SVM, лесные вещи) и неконтролируемым обучением (K-средние, иерархическая кластеризация и другие).
Возьмем пример:
Предположим, мы хотим, чтобы Робо водил машину. Чтобы переехать на автомобиле из одной точки в другую, необходимо..
Станьте мастером ИИ
и изучите множество востребованных навыков 21 века
Оглавление:
Объясните мне ИИ, как если бы я был ребенком Большая картина моего блога посвящена ИИ Текущий фокус моего блога на обучении с подкреплением (RL) В моем блоге основное внимание уделяется навыкам, необходимым для освоения ИИ или создания нового ИИ Заключение
1. Объясните мне ИИ, как если бы я был ребенком:
К настоящему времени, я уверен, вы слышали, что фраза ИИ немного разбрасывалась, но знаете ли вы, что она..
Обобщенная оценка преимуществ в обучении с подкреплением
Компромисс смещения и дисперсии в градиенте политики
Методы градиента политики являются одним из наиболее широко используемых алгоритмов обучения в обучении с подкреплением. Они нацелены на оптимизацию параметризованной политики и использование функций ценности, чтобы помочь оценить, как следует улучшить политику.
Однако одной из основных проблем обучения с подкреплением, особенно для методов градиента политики, является длительная задержка между действиями и их положительное или..
Выводы по градиенту политики и обучение, ориентированное на любопытство
1. Что такое обучение с подкреплением?
Обучение с подкреплением - это область машинного обучения, которая произвела много важных достижений в области ИИ, таких как Alpha Go и OpenAI Five . Игра в го считалась довольно сложной для компьютеров, чтобы учиться и играть на том же уровне, что и профессиональные игроки-люди. AlphaGo важна как первая машина, которая превзошла лучших игроков в го. Важно отметить, что и Alpha Go, и OpenAI Five используют алгоритмы обучения с подкреплением,..
Deepmind: доказательство существования RL в масштабе
Мозг - это доказательство существования общего интеллекта - DeepMind от Google - доказательство того, что мы делаем успехи в его воспроизведении.
Успехи DeepMind в обучении с подкреплением с AlphaGo, AlphaZero и т. Д. Открывают путь для следующего поколения технологических компаний, развертывающих крупномасштабные проекты ИИ. DeepMind - далеко не прибыльная компания на бумаге (хотя они и дают Google преимущество), но они показывают миру, как использовать искусственный интеллект и, что..
Основные концепции обучения с подкреплением на примере
Прокатитесь в MountainCar спортзала OpenAI Gym, чтобы изучить теорию RL.
Авторы Ханна Петерсон и Джордж Уильямс ([email protected])
Вы можете вспомнить из предыдущего поста в этой серии об обучении с подкреплением (RL), что Марковский процесс принятия решений (MDP) - это математическая основа для моделирования задач RL. Чтобы обосновать математическую теорию MDP на практике, мы определили каждый из ее элементов в контексте игры MountainCar OpenAI Gym. Теперь, когда..