Проект команды Gitkraken

21.12.2022

Показатели эффективности портфеля являются ключевым фактором при принятии инвестиционного решения. Последние тенденции в технологиях прогнозирования фондового рынка используют машинное обучение, которое делает прогнозы на основе значений текущего фондового рынка путем обучения данных по полученным предыдущим значениям. Благодаря достижениям в области машинного обучения различные алгоритмы используются для различных целей, таких как интеллектуальный анализ данных, обработка изображений, прогнозная аналитика и т. д.

В этом проекте регрессионный анализ проводится с использованием набора обучающих данных, чтобы использовать правильную модель для лучшего прогнозирования и точности.

Наборы данных моделируются с использованием исторических данных фондового рынка США, чтобы получить их характеристики. Модели прогнозирования производительности были построены с использованием смоделированного набора данных о производительности.

Цели и задачи

Проект направлен на анализ эффективности акций, годовой доходности, рисков, коэффициентов выигрышей, поиск взаимосвязи между концепциями ценообразования акций и производительностью портфелей.

Наша главная цель — найти оптимальное сочетание весов концепций ценообразования акций и предсказать абсолютный коэффициент выигрыша акции.

Поток Процесс

В проекте задействовано 5 этапов.

  1. Источник данных — этот этап подразумевает сбор набора данных, необходимого для этого проекта. Процесс интеллектуального анализа данных является подмножеством этого этапа.
  2. Подготовка данных. Этот этап включает в себя обработку данных, очистку данных и удаление выбросов. Он также включает EDA (исследовательский анализ данных), с помощью которого мы можем получить представление о наборе данных.
  3. Обучение модели. На этом этапе очищенные данные теперь передаются в модель, и модель изучает шаблоны из нашего набора данных.
  4. Оценка и проверка модели. Теперь, после обучения модели (моделей), она используется для некоторых прогнозов. Затем его эффективность будет оцениваться и подтверждаться.
  5. Анализ результатов. После того, как мы закончили делать прогнозы с некоторыми моделями, мы рассматриваем модель с наибольшей точностью, чтобы делать точные прогнозы.

Понимание набора данных

Набор данных, который мы получили, состоит из шести рабочих листов.

Первые пять рабочих листов представляют собой записи, которые содержат фактические данные и функции, разделенные на определенные временные рамки. В то время как последний рабочий лист содержит информацию, связанную с периодом владения акциями в годах.

Каждый из показателей эффективности, принятых в этом проекте, был приведен к одной и той же шкале в течение одного и того же периода времени в 20 лет (80 кварталов).

Все предоставленные данные о запасах были разделены на 3 части, каждая из которых имеет свои особенности:

  1. Вес концепции подбора акций.
  2. Первоначальный показатель эффективности инвестиций: относится к относительной доходности акций фирмы и не учитывает рыночную тенденцию. Это можно решить, если охватываемый период времени короче, но в нашем наборе данных мы рассматриваем весь период.
  3. Нормализованный показатель инвестиционной эффективности: относится к абсолютной норме доходности акций фирмы, что приводит к точному прогнозированию на конкретный период времени.

Источник данных

Набор данных получен по ссылке эта.

Набор данных об эффективности портфелей акций со взвешенной оценкой получен с помощью смешанной схемы из исторической базы данных фондового рынка США.

Особенности интереса

Ниже описаны некоторые из важных характеристик, представленных в наборе данных.

B/P. Компании используют отношение цены к балансовой стоимости (коэффициент P/B), чтобы сравнить рыночную капитализацию фирмы с ее балансовой стоимостью. Отношение цены к балансовой стоимости часто используется стоимостными инвесторами, которые ищут акции, недооцененные рынком.

ROE. Рентабельность собственного капитала (ROE) рассчитывается путем деления чистой прибыли компании на собственный капитал ее акционеров, что позволяет определить, насколько эффективно компания генерирует прибыль.

Норма прибыли – прибыль или убыток от инвестиций за определенный период времени, выраженный в процентах от стоимости инвестиций.

Систематический риск, также известный как рыночный риск. Это риск, присущий всему рынку, а не отдельной акции или отрасли.

Винрейт — это количество прибыльных сделок за определенный период времени в общем количестве совершенных сделок за тот же период времени.

Годовой доход. Годовой доход – это прибыль или убыток от инвестиции за год.

Избыточная доходность. Избыточная доходность представляет собой доход, полученный акцией (или портфелем акций) и безрисковой ставкой.

Рыночная стоимость. Можно сказать, что это инвестиции в конкретный капитал или бизнес; цена, которую актив может получить на рынке.

Абсолютный коэффициент выигрыша – отношение количества периодов владения портфелями с положительной доходностью к общему количеству периодов владения портфелями.

Относительная доходность — соотношение между количеством периодов владения портфелями с доходностью, превышающей рыночную, и общим количеством периодов владения портфелем.

Подготовка данных

На первый взгляд импортированный набор данных выглядит несколько неопрятно.

Мы не можем понять особенности из полученных выше имен столбцов. Поэтому мы назначаем новый заголовок фрейму данных.

После того, как мы получили лучший фрейм данных, мы проверяем типы данных всех функций. Мы узнаем, что все типы относятся к типу «объект».

Алгоритмы машинного обучения обычно полагаются на математические операции, которые требуют, чтобы их входные данные были числового типа.

Теперь эти типы должны быть преобразованы в числовые значения, чтобы с ними можно было работать.

Тип данных всех функций был изменен на числовой.

Чтобы выполнить некоторую визуализацию и графики, нам нужно переименовать столбцы, чтобы они выглядели лучше.

После правильного переименования столбцов с использованием двух вышеуказанных функций наши данные теперь созданы, и теперь мы готовы выполнить некоторый анализ и визуализировать данные.

Прежде чем разделить данные на обучающие наборы и тестовые наборы, мы решили отказаться от исходных показателей эффективности портфельных инвестиций, поскольку у нас уже есть нормализованные показатели инвестиций.

При таком понимании и с учетом обстоятельств нашего проекта исходные индикаторы были исключены, а ограничения нашего проекта были установлены на временные рамки набора данных.

Теперь мы визуализируем набор данных, используя различные гистограммы, гистограммы и круговые диаграммы, чтобы получить некоторое представление.

Теперь данные очищены, и все необходимые функции получены. Теперь самая важная часть,

Обучение модели, оценка и проверка

Чтобы построить модель, мы использовали тепловую карту, чтобы проверить вклад каждой из переменных, чтобы выяснить некоторые корреляции между функциями.

Во-первых, мы разделяем данные на зависимую переменную y, в данном случае это Abs_Win_Rate1 переменная, которую мы хотим спрогнозировать, и независимые переменные X, где мы выполнили рекомендуемый отбор на основе корреляционной матрицы для оптимизации обучения и чтобы избежать гетероскедастичности, по этой причине мы не включили много столбцов.

Был обучен базовый классификатор CatBoost, определена функция для подбора и оценки моделей и получены соответствующие оценки. Использовались следующие модели:

1. Регрессор XGBoost

2. Регрессор дерева решений

3. Регрессор случайного леса

4. Регрессор CatBoost

5. Регрессор повышения градиента

6. Ридж-регрессор

7. Регрессор опорных векторов

8. Линейный регрессор

Полученные результаты

Оценки, полученные для различных моделей, были следующими:

Были сопоставлены оценки всех различных используемых регрессионных моделей. Совершенно очевидно, что линейная модель дала лучший показатель r2.

Когда мы сравниваем фактические и прогнозируемые значения абсолютных винрейтов, визуализируя ошибки, мы видим, что наши прогнозы безупречны.

Заключение

Согласно оценке моделей прогнозирования производительности, основанных на методах регрессии, абсолютные винрейты могут быть предсказаны более точно, чем относительные винрейты. Это может быть связано с тем, что фундаментальный анализ отдельной фирмы эффективен только для выбора акций, но бесполезен для определения времени выхода на рынок. Точность результатов во многом зависит от качества набора данных, загруженных в модель. Показатели эффективности портфеля являются ключевым фактором при принятии инвестиционного решения. Эти инструменты также помогают предоставлять информацию и идеи инвесторам.

Члены команды

  1. Ханна Касали (руководитель группы)
  2. Кристиан Тан (помощник руководителя группы)
  3. Апурв Дешпанде (аналитик запросов)
  4. Закария Джнайни
  5. Ловетт Дюк
  6. Фачи Около
  7. Шэрон Ифеаничукву Дим