Статьи по теме reinforcement-learning

Публикации по теме 'reinforcement-learning'

Обзор самостоятельного обучения обработке естественного языка

Исследование взаимодействия между компьютерами и человеческими (естественными) языками известно как обработка естественного языка (НЛП). В исследованиях НЛП центральное место обычно занимает обучение с учителем, при котором модель обучается на наборе размеченных данных. Однако сбор помеченных данных может быть дорогостоящим и трудоемким, что ограничивает масштабируемость моделей НЛП. Самообучение – это тип машинного обучения, не требующий размеченных данных. Вместо этого модель учится..

Классификация должностей с зашумленными надписями с помощью REINFORCE

Детализированная классификация должностей с зашумленными надписями с использованием алгоритма REINFORCE и многозадачного обучения В этой статье рассказывается о задачах, над которыми ежедневно работает техническая группа ZipRecruiter. Если вы заинтересованы в поиске решений подобных проблем, посетите нашу страницу карьеры , чтобы увидеть открытые вакансии. В ZipRecruiter наша технология интеллектуального поиска помогает миллионам соискателей найти новую прекрасную возможность..

Частично наблюдаемые марковские процессы принятия решений (POMDP) для обучения с подкреплением (RL)

В модели обучения с подкреплением (RL) для начинающих вы, вероятно, изучили процесс принятия решений по Маркову (MDP). Есть только одна большая проблема с этой моделью. На практике агент редко знает полное состояние за все время. Мы, исследователи, говорим, что состояние частично наблюдаемо для агента. Вследствие этого недостатка, присущего большинству…

Введение в обучение с подкреплением

Когда мы рождаемся, первое, что мы делаем, это взаимодействуем с окружающей средой, которая нам совершенно неизвестна. Наши действия превращаются в последствия, которые мы усваиваем в виде опыта. Этот процесс обучения был получен в серии алгоритмов, которые сгруппированы под названием «обучение с подкреплением» и в настоящее время лидируют в революции искусственного интеллекта, особенно в области машинного обучения. 2010 — Google покупает DeepMind за ~ 450 миллионов долларов...

Хотите заняться машинным обучением? Встречайте AWS DeepRacer!

Хотите заняться машинным обучением? Встречайте AWS DeepRacer! В эти выходные мы проводим семинар AWS DeepRacer (бесплатно!) В нашей штаб-квартире в Мельбурне. Но до этого мы решили, что сможем рассказать вам, что такое DeepRacer в первую очередь и почему мы думаем, что это так круто. Итак, что это такое? DeepRacer был создан Amazon Web Services , подразделением Amazon, которое предлагает облачные вычисления и интерфейсы прикладного программирования (API) для отдельных..

AlphaGo Zero - меняет правила игры. (Как это работает?)

AlphaGo Zero - меняет правила игры. (Как это работает?) Даже AlphaGo впечатляет, он требует начальной подготовки с человеческими играми и знаниями. Ситуация изменилась, когда DeepMind выпустила AlphaGo Zero в конце 2017 года. Хотя СМИ уделяют ей меньше внимания, прорыв может быть более значительным. Он самообучается без знания человеческой области и без предварительной подготовки с человеческими играми. Это приближает нас на один шаг к тому, что может видеть Алан Тьюринг: Вместо..

Целевые сети: медленно и стабильно побеждает в гонке

Обучение с подкреплением — это третье семейство алгоритмов машинного обучения после контролируемого и неконтролируемого обучения. Цель состоит в том, чтобы найти оптимальное поведение в окружающей среде посредством взаимодействий и обучения на них. В идеальном мире мы можем эффективно измерять состояние окружающей среды, предсказывать результат каждого нашего действия и знать их точную стоимость. Эти проблемы решались с помощью динамического программирования в течение последних..