В моем предыдущем посте я сосредоточился на понимании вычислительной и математической перспективы обучения с подкреплением и проблемах, с которыми мы сталкиваемся при использовании алгоритма в бизнес-сценариях.

В этом посте я исследую применение обучения с подкреплением в трейдинге. Финансовая отрасль изучает возможности применения искусственного интеллекта и машинного обучения для своих сценариев использования, но денежный риск вызвал сопротивление. Традиционная алгоритмическая торговля развивалась в последние годы, и теперь высокопроизводительные вычислительные системы автоматизируют эти задачи, но трейдеры по-прежнему создают политики, определяющие выбор при покупке и продаже. Алгоритмическая модель для покупки акций, основанная на списке условий оценки и показателей роста, может определять сигнал «покупка» или «продажа», который, в свою очередь, запускается некоторыми конкретными правилами, определенными трейдером.

Например, алгоритмический подход может заключаться в простой покупке индекса S&P, когда он закрывается выше максимума за последние 30 дней, или ликвидации позиции, когда он закрывается ниже минимума за последние 30 дней. Такие правила могут быть следующими за трендом, против тренда или основаны на естественных закономерностях. Разные технические аналитики неизбежно по-разному определяли бы как модель, так и условия подтверждения. Для того, чтобы этот подход был систематическим, трейдер должен был бы указать точные математические условия, чтобы однозначно определить, была ли сформирована модель «голова и плечи», а также точные условия, которые будут определять ее подтверждение.

Что касается передового машинного обучения на современном финансовом рынке, мы можем ожидать появления в октябре 2017 года биржевых фондов (ETF) на основе ИИ от EquBot. EquBot автоматизирует эти ETF для сбора рыночной информации от тысяч американских компаний, более миллиона рыночных сигналов, ежеквартальных новостных статей и сообщений в социальных сетях. Данный ETF может выбрать от 30 до 70 компаний с высокими возможностями для рыночной оценки, и он будет продолжать учиться в каждой сделке. Другой известный игрок на рынке, Horizons, запустил аналогичный глобальный ETF Active AI, который Horizons разработала с помощью машинного обучения с учителем, которое включает формирование политики трейдерами. При использовании подхода к обучению с учителем трейдеры-люди помогают выбирать пороговые значения, учитывать задержки, оценивать комиссии и т. Д.

Конечно, если она будет полностью автоматизирована, торговая модель, управляемая искусственным интеллектом, должна делать больше, чем предсказывать цены. Ему нужна политика, основанная на правилах, которая принимает в качестве входных данных цену акции, а затем решает, покупать, продавать или держать.

В июне 2018 года Morgan Stanley назначил Майкла Кирнса, ученого-информатика из Пенсильванского университета, с целью расширить использование искусственного интеллекта. В интервью Bloomberg доктор Кернс отметил, что хотя стандартные модели машинного обучения делают прогнозы цен, они не определяют наилучшее время для действий, оптимальный размер сделки или ее влияние на рынок. Он добавил: С помощью обучения с подкреплением вы учитесь делать прогнозы, которые учитывают, какое влияние ваши действия оказывают на состояние рынка.

Обучение с подкреплением позволяет проводить сквозную оптимизацию и максимизировать вознаграждение. Важно отметить, что агент RL сам настраивает параметры, чтобы добиться оптимального результата. Например, мы можем представить себе большое отрицательное вознаграждение, когда просадка превышает 30%, что заставляет агента рассматривать другую политику. Мы также можем создать моделирование, чтобы улучшить реакцию в критических ситуациях. Например, мы можем моделировать задержки в среде обучения с подкреплением, чтобы создать отрицательное вознаграждение для агента. Это отрицательное вознаграждение, в свою очередь, заставляет агента изучать обходные пути для задержек. Подобные стратегии позволяют агенту автоматически настраиваться с течением времени, постоянно делая его более мощным и адаптируемым.

Здесь, в IBM, мы создали сложную систему на платформе DSX, которая совершает финансовые сделки, используя возможности обучения с подкреплением. Модель включает обучение на исторических данных о ценах на акции с использованием стохастических действий на каждом временном шаге, и мы вычисляем функцию вознаграждения на основе прибыли или убытка для каждой сделки.

IBM Data Science Experience - это корпоративная платформа для анализа данных, которая предоставляет командам широчайший набор инструментов для анализа данных с открытым исходным кодом для любого набора навыков, гибкость для создания и развертывания в любом месте в мультиоблачной среде, а также возможность использовать результаты науки о данных Быстрее.'

Следующие ниже диаграммы объединяют методологию обучения с подкреплением и пример использования финансовой торговли.

Мы измеряем эффективность усиленной торговой модели с помощью альфа-метрики (активная доходность инвестиций), а также оцениваем эффективность инвестиций по отношению к рыночному индексу, отражающему движение рынка в целом. Наконец, мы сравниваем модель с простой стратегией Покупай и держи и с ARIMA-GARCH. Мы обнаружили, что модель имеет очень доработанную модерацию в соответствии с рыночными движениями и может даже улавливать паттерны головы и плеч, которые представляют собой нетривиальные тенденции, которые могут сигнализировать о разворотах на рынке.

Обучение с подкреплением может применяться не во всех случаях использования в бизнесе, но его способность улавливать тонкости финансовой торговли, безусловно, демонстрирует его сложность, мощь и больший потенциал.

Следите за обновлениями, поскольку мы проверяем эффективность обучения с подкреплением в большем количестве случаев использования в бизнесе!