Публикации по теме 'reinforcement-learning'


Питер и волк: обучающее приключение с подкреплением
Введение Добро пожаловать в увлекательное путешествие в мир Reinforcement Learning (RL)! В этом уроке мы рассмотрим, как можно применить RL к задаче поиска пути, вдохновленной знаменитой музыкальной сказкой «Петя и волк», написанной Сергеем Прокофьевым. Присоединяйтесь к нам, пока мы обучаем алгоритмы машинного обучения, чтобы помочь Петру, отважному юному первопроходцу, исследовать лес и построить оптимальную навигационную карту. Сеттинг: Мир Питера В нашем сценарии мир Питера..

Переход от систем контролируемого обучения к многоагентному обучению с подкреплением для финансовых…
Аннотация За последнее десятилетие высокочастотный алгоритмический трейдинг (HFT) значительно вырос благодаря доступности зрелых алгоритмов машинного обучения и вычислительной мощности. Доступность помеченных данных, предписывающих выходы для входов, позволила создать контролируемый подход к этой сложной проблеме для покупки, продажи или хранения акций и даже для управления портфелем, то есть непрерывного процесса перераспределения капиталов между несколькими активами [1]. Мы..

Генеративно-состязательные сети (GAN) и глубокое обучение с подкреплением (DRL)
Введение Генеративно-состязательные сети (GAN) и глубокое обучение с подкреплением (DRL) — две популярные и постоянно развивающиеся области искусственного интеллекта, которые в последние годы вызвали большой интерес и исследования. Знание этих двух подполей и того, как они связаны и отличаются друг от друга, также важно, когда вы продвигаетесь в ML/AI. В этой статье мы расскажем об этих двух невероятных фреймворках машинного обучения и о том, что их отличает. Что такое..

Машинное обучение для начинающих
Машинное обучение было определено в 90-х годах Артуром Сэмюэлем , которое описал как: « это область обучения, которая дает компьютеру возможность самообучения. учиться без явного программирования », что означает передачу знаний машинам без жесткого программирования. «Считается, что компьютерный алгоритм / программа учится на основе показателя производительности P и испытывает E с некоторым классом задач T, если их производительность при выполнении задач в T, измеренная с..

Обучение с подкреплением: пример использования в бизнесе, часть 2
В моем предыдущем посте я сосредоточился на понимании вычислительной и математической перспективы обучения с подкреплением и проблемах, с которыми мы сталкиваемся при использовании алгоритма в бизнес-сценариях. В этом посте я исследую применение обучения с подкреплением в трейдинге. Финансовая отрасль изучает возможности применения искусственного интеллекта и машинного обучения для своих сценариев использования, но денежный риск вызвал сопротивление. Традиционная алгоритмическая..

Введение в мир обучения финансовому подкреплению: Часть 2 Обучение агентов
Подробное руководство по торговле акциями с помощью FinRL В этой серии мы покажем интегрированный процесс использования глубокого обучения с подкреплением для количественной торговли, ссылаясь на статью Практический подход к глубокому обучению с подкреплением для торговли акциями [1]. Коды можно найти в соответствующем блокноте Stock_NeurIPS2018_2_Train.ipynb в FinRL-Tutorial : GitHub — AI4Finance-Foundation/FinRL-Tutorials Сборник руководств по..

Обучение с подкреплением с обратной связью от человека
ChatGPT стал широко использоваться с момента его выпуска. Построенный на GPT-3.5, большой языковой модели (LLM), ChatGPT имеет интересную возможность вести беседы, в отличие от самого GPT-3.5, который мог только обобщать или генерировать текст из подсказок. Что сделало ChatGPT лучше, так это его способность запоминать прошлые инструкции и разговоры, а это означает, что ему требовалось меньше оперативного проектирования, поскольку он мог лучше понимать разговоры. Генеративные предварительно..