Публикации по теме 'reinforcement-learning'
Питер и волк: обучающее приключение с подкреплением
Введение
Добро пожаловать в увлекательное путешествие в мир Reinforcement Learning (RL)! В этом уроке мы рассмотрим, как можно применить RL к задаче поиска пути, вдохновленной знаменитой музыкальной сказкой «Петя и волк», написанной Сергеем Прокофьевым. Присоединяйтесь к нам, пока мы обучаем алгоритмы машинного обучения, чтобы помочь Петру, отважному юному первопроходцу, исследовать лес и построить оптимальную навигационную карту.
Сеттинг: Мир Питера
В нашем сценарии мир Питера..
Переход от систем контролируемого обучения к многоагентному обучению с подкреплением для финансовых…
Аннотация
За последнее десятилетие высокочастотный алгоритмический трейдинг (HFT) значительно вырос благодаря доступности зрелых алгоритмов машинного обучения и вычислительной мощности. Доступность помеченных данных, предписывающих выходы для входов, позволила создать контролируемый подход к этой сложной проблеме для покупки, продажи или хранения акций и даже для управления портфелем, то есть непрерывного процесса перераспределения капиталов между несколькими активами [1]. Мы..
Генеративно-состязательные сети (GAN) и глубокое обучение с подкреплением (DRL)
Введение
Генеративно-состязательные сети (GAN) и глубокое обучение с подкреплением (DRL) — две популярные и постоянно развивающиеся области искусственного интеллекта, которые в последние годы вызвали большой интерес и исследования.
Знание этих двух подполей и того, как они связаны и отличаются друг от друга, также важно, когда вы продвигаетесь в ML/AI. В этой статье мы расскажем об этих двух невероятных фреймворках машинного обучения и о том, что их отличает.
Что такое..
Машинное обучение для начинающих
Машинное обучение было определено в 90-х годах Артуром Сэмюэлем , которое описал как: « это область обучения, которая дает компьютеру возможность самообучения. учиться без явного программирования », что означает передачу знаний машинам без жесткого программирования.
«Считается, что компьютерный алгоритм / программа учится на основе показателя производительности P и испытывает E с некоторым классом задач T, если их производительность при выполнении задач в T, измеренная с..
Обучение с подкреплением: пример использования в бизнесе, часть 2
В моем предыдущем посте я сосредоточился на понимании вычислительной и математической перспективы обучения с подкреплением и проблемах, с которыми мы сталкиваемся при использовании алгоритма в бизнес-сценариях.
В этом посте я исследую применение обучения с подкреплением в трейдинге. Финансовая отрасль изучает возможности применения искусственного интеллекта и машинного обучения для своих сценариев использования, но денежный риск вызвал сопротивление. Традиционная алгоритмическая..
Введение в мир обучения финансовому подкреплению: Часть 2 Обучение агентов
Подробное руководство по торговле акциями с помощью FinRL
В этой серии мы покажем интегрированный процесс использования глубокого обучения с подкреплением для количественной торговли, ссылаясь на статью Практический подход к глубокому обучению с подкреплением для торговли акциями [1].
Коды можно найти в соответствующем блокноте Stock_NeurIPS2018_2_Train.ipynb в FinRL-Tutorial :
GitHub — AI4Finance-Foundation/FinRL-Tutorials Сборник руководств по..
Обучение с подкреплением с обратной связью от человека
ChatGPT стал широко использоваться с момента его выпуска. Построенный на GPT-3.5, большой языковой модели (LLM), ChatGPT имеет интересную возможность вести беседы, в отличие от самого GPT-3.5, который мог только обобщать или генерировать текст из подсказок. Что сделало ChatGPT лучше, так это его способность запоминать прошлые инструкции и разговоры, а это означает, что ему требовалось меньше оперативного проектирования, поскольку он мог лучше понимать разговоры. Генеративные предварительно..