Концепции и методы прогнозирования временных рядов с примерами реализации

Прогнозирование временных рядов — это процесс использования исторических данных для предсказания будущих событий. Данные временных рядов относятся к данным, которые собираются с течением времени и обычно используются для моделирования и прогнозирования тенденций, закономерностей и поведения. Существует множество подходов к прогнозированию временных рядов, включая статистические методы и методы машинного обучения.

Одним из распространенных статистических методов прогнозирования временных рядов является модель авторегрессионного интегрированного скользящего среднего (ARIMA). Эта модель использует прошлые данные для прогнозирования будущих значений путем подгонки линейного уравнения к данным и использования уравнения для прогнозирования. Другим статистическим методом является метод сезонной декомпозиции, который разбивает данные на тренд, сезонность и остаточные компоненты для получения более точных прогнозов.

Прогнозирование временных рядов и регрессия

Анализ временных рядов и регрессия — это два статистических метода, которые обычно используются при анализе данных и прогнозном моделировании. Однако они используются для разных типов задач и предполагают разные подходы к моделированию и анализу.

Анализ временных рядов — это статистический метод анализа и моделирования данных, зависящих от времени. Данные временных рядов состоят из наблюдений за переменной во времени, например ежедневных цен на акции или ежемесячных данных о продажах. Анализ временных рядов включает выявление закономерностей и тенденций в данных и использование этих закономерностей для прогнозирования будущих значений переменной. Модели временных рядов часто используются в таких областях, как экономика, финансы и метеорология, где данные собираются с течением времени и необходимо прогнозировать будущие значения или понимать, как переменная, представляющая интерес, изменяется с течением времени.

Регрессия — это статистический метод, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Модели регрессии используются для прогнозирования значения зависимой переменной на основе значений независимых переменных. Регрессия используется в самых разных областях, включая экономику, финансы, психологию и маркетинг, чтобы понять, как связаны различные переменные, и сделать прогнозы относительно одной переменной на основе значений других.

Таким образом, анализ временных рядов используется для анализа и моделирования данных, зависящих от времени, а регрессия используется для моделирования взаимосвязи между переменными и создания прогнозов на основе этой взаимосвязи.

Типы прогнозирования

Существует несколько типов методов прогнозирования, которые можно использовать для прогнозирования будущих событий или тенденций. Некоторые распространенные типы методов прогнозирования включают в себя:

Прогнозирование временных рядов: этот тип прогнозирования используется для прогнозирования будущих значений временного ряда на основе его прошлых значений. Методы прогнозирования временных рядов включают простое экспоненциальное сглаживание, экспоненциальное сглаживание Холта-Винтерса и модели авторегрессионного интегрированного скользящего среднего (ARIMA).
Причинное прогнозирование: этот тип прогнозирования используется для прогнозирования будущего значения временного ряда на основе значений других переменных (известных как предикторы или независимые переменные). Причинно-следственные методы прогнозирования включают линейную регрессию, множественную линейную регрессию и логистическую регрессию.
Качественное прогнозирование: этот тип прогнозирования основан на экспертных оценках или субъективных мнениях, чтобы делать прогнозы. К качественным методам прогнозирования относятся метод Дельфи и метод номинальной группы.
Интуитивное прогнозирование: этот тип прогнозирования опирается на интуицию или внутреннее чутье человека, чтобы делать прогнозы. Интуитивное прогнозирование часто используется в ситуациях, когда не хватает данных или другой информации.

Основные этапы прогнозирования временных рядов

Прогнозирование временных рядов включает использование статистических методов и методов машинного обучения для анализа прошлых данных и прогнозирования будущих событий или тенденций. Вот основные шаги, связанные с прогнозированием временных рядов:

Сбор и очистка данных. Первым шагом в прогнозировании временных рядов является сбор и очистка данных, которые вы будете использовать для анализа. Это может включать удаление отсутствующих или недействительных точек данных, а также преобразование данных каким-либо образом (например, вычисление разностей или логарифмов) для стабилизации дисперсии или придания данным стационарности.
Исследуйте данные. После того, как вы очистите данные, следующим шагом будет их изучение, чтобы лучше понять тенденции и закономерности, присутствующие в данных. Это может включать создание графиков, таких как линейные диаграммы или гистограммы, для визуализации данных и определения любых тенденций или сезонности.
Выберите метод прогнозирования. Существует множество различных методов прогнозирования временных рядов, поэтому следующим шагом будет выбор наиболее подходящего для ваших данных и целей прогнозирования. Некоторые распространенные методы прогнозирования временных рядов включают простое экспоненциальное сглаживание, экспоненциальное сглаживание Холта-Винтерса и модели авторегрессионного интегрированного скользящего среднего (ARIMA).
Подгонка модели: после того, как вы выбрали метод прогнозирования, следующим шагом будет подгонка модели к вашим данным. Это включает в себя оценку параметров модели, которые будут использоваться для составления прогнозов.
Делайте прогнозы: после того, как модель будет подобрана, вы можете использовать ее для прогнозирования будущих значений временного ряда. Обычно это делается путем указания горизонта прогноза (т. е. количества периодов вперед, для которых вы хотите сделать прогнозы) и использования модели для создания прогнозов для каждого периода в горизонте.
Оцените модель. Наконец, важно оценить производительность модели, чтобы определить, насколько хорошо она способна делать прогнозы. Это может включать расчет различных статистических показателей, таких как средняя абсолютная ошибка (MAE) или среднеквадратическая ошибка (RMSE), для оценки точности прогнозов.

Основные понятия

Вот некоторые ключевые концепции, которые важно понимать при работе с прогнозированием временных рядов:

Тренд: тренд — это долгосрочное увеличение или уменьшение данных. Положительная тенденция указывает на то, что данные со временем увеличиваются, а отрицательная тенденция указывает на то, что данные со временем уменьшаются.
Сезонность. Сезонность относится к закономерностям в данных, которые повторяются через равные промежутки времени (например, ежемесячно, ежеквартально, ежегодно). Например, продажи зимних курток могут быть выше в зимние месяцы и ниже в летние месяцы.
Стационарность: говорят, что временной ряд является стационарным, если его статистические свойства (например, среднее значение, дисперсия) постоянны во времени. Многие методы прогнозирования временных рядов предполагают, что данные являются стационарными, поэтому часто необходимо каким-либо образом преобразовать данные (например, взяв разности или логарифмы), чтобы сделать их стационарными.
Автокорреляция: Автокорреляция — это степень, в которой значение временного ряда в данной точке коррелирует со значением ряда в предыдущих точках. Автокорреляцию можно использовать для выявления закономерностей в данных и помощи в выборе подходящего метода прогнозирования.
Горизонт прогноза: Горизонт прогноза — это количество периодов вперед, для которых вы хотите делать прогнозы. Например, если вы прогнозируете ежемесячные данные о продажах и хотите сделать прогнозы на следующие 6 месяцев, горизонт прогноза будет равен 6.

Сезонность и цикличность

Сезонность относится к закономерностям в данных, которые повторяются через равные промежутки времени (например, ежемесячно, ежеквартально, ежегодно). Сезонность часто вызвана внешними факторами, которые регулярно влияют на данные (например, погода, праздники). Например, продажи зимних курток могут быть выше в зимние месяцы и ниже в летние месяцы.

Цикличность, с другой стороны, относится к закономерностям в данных, которые повторяются через нерегулярные промежутки времени. Цикличность часто вызвана внутренними факторами, оказывающими циклическое влияние на данные (например, экономическими циклами). Например, фондовый рынок может испытывать циклы бычьего и медвежьего рынков, с периодами сильного роста, сменяющимися периодами спада.

Вот несколько примеров, иллюстрирующих разницу между сезонностью и цикличностью:

Пример сезонности:

Данные о продажах розничного магазина, которые показывают предсказуемый рост продаж в праздничный сезон (например, в ноябре и декабре) и снижение продаж в летние месяцы (например, июнь, июль и август).

Пример цикличности:

Данные об уровне безработицы, которые показывают циклическую модель высокой безработицы во время экономического спада и низкой безработицы во время экономического подъема.

Аддитивная и мультипликативная сезонная декомпозиция

Сезонная декомпозиция — это статистический метод, используемый для разложения временного ряда на составные части: тренд, сезонность и остатки. Существует два основных типа сезонной декомпозиции: аддитивная и мультипликативная.

Аддитивная сезонная декомпозиция включает использование аддитивной модели, в которой тренд, сезонность и остатки складываются вместе для получения наблюдаемого временного ряда. Это часто используется, когда величина тренда и сезонность не меняются с течением времени.

Мультипликативная сезонная декомпозиция предполагает использование мультипликативной модели, в которой тренд, сезонность и остатки перемножаются для получения наблюдаемого временного ряда. Это часто используется, когда величина тренда и сезонность меняются с течением времени.

Вот несколько примеров, иллюстрирующих разницу между аддитивной и мультипликативной сезонной декомпозицией:

Пример аддитивной сезонной декомпозиции:

Данные о продажах розничного магазина, демонстрирующие постоянное увеличение продаж в праздничный сезон (например, в ноябре и декабре) и снижение продаж в летние месяцы (например, июнь, июль и август). Компонент тренда может показывать общее увеличение продаж с течением времени, тогда как компонент сезонности показывает предсказуемые колебания продаж в связи с сезоном отпусков и летними месяцами.

Пример мультипликативной сезонной декомпозиции:

Данные о потреблении электроэнергии, которые показывают постоянное увеличение потребления в летние месяцы (из-за кондиционирования воздуха) и снижение потребления в зимние месяцы (из-за более низкой потребности в отоплении). Компонент тренда может показывать общее увеличение потребления с течением времени, тогда как компонент сезонности показывает предсказуемые колебания потребления в зависимости от времени года.

Нестационарные и стационарные

Временной ряд называется стационарным, если его статистические свойства (среднее значение, дисперсия, автоковариация и т. д.) не меняются с течением времени. Другими словами, стационарный временной ряд — это ряд, который имеет постоянное среднее значение и дисперсию, а его автоковариация не зависит от временного запаздывания. Стационарные временные ряды легче моделировать и прогнозировать, чем нестационарные, поскольку они более стабильны и предсказуемы.

С другой стороны, временной ряд нестационарен, если его статистические свойства изменяются во времени. Нестационарные временные ряды часто имеют тенденции или сезонность, что затрудняет их моделирование и прогнозирование.

Чтобы сделать нестационарный временной ряд стационарным, мы можем применить преобразование к данным, такое как дифференцирование или регистрация. Разность включает вычитание предыдущего значения из текущего значения, чтобы удалить тенденцию, в то время как регистрация включает логарифмирование значений для стабилизации дисперсии.

Например, рассмотрим следующие данные временного ряда:

Этот временной ряд является нестационарным, поскольку среднее значение и дисперсия со временем увеличиваются. Чтобы сделать его стационарным, мы можем применить разность первого порядка:

Результирующий разностный ряд является стационарным, поскольку имеет постоянное среднее значение и дисперсию. Затем мы можем использовать этот стационарный ряд для построения модели временного ряда.

Важно отметить, что не все временные ряды можно сделать стационарными с помощью преобразований. В этих случаях могут потребоваться другие подходы, такие как использование модели сезонной декомпозиции.

Функция автокорреляции (ACF) и функция частичной автокорреляции (PACF)

Функция автокорреляции (ACF) и функция частичной автокорреляции (PACF) — это статистические меры, которые используются для понимания взаимосвязи между временным рядом и его запаздывающими (прошлыми) значениями.

ACF — это мера корреляции между временным рядом и его запаздывающей версией. Он рассчитывается путем взятия автоковариации временного ряда и нормализации ее на дисперсию временного ряда. ACF является функцией запаздывания (количество временных шагов между двумя сравниваемыми временными рядами).

PACF — это мера корреляции между временным рядом и его запаздывающей версией, которая не объясняется корреляциями при всех запаздываниях более низкого порядка. Он рассчитывается путем регрессии временного ряда по его собственным запаздывающим значениям и последующего вычисления автоковариации остатков.

И ACF, и PACF обычно используются при анализе временных рядов для выявления закономерностей и тенденций в данных, а также для помощи в выборе подходящей модели для прогнозирования будущих значений временных рядов. Их также можно использовать для определения порядка модели авторегрессии (AR) или модели скользящего среднего (MA), которые обычно используются для моделирования данных временных рядов.

График АКФ может дать ответы на следующие вопросы:

Является ли наблюдаемый временной ряд белым шумом/случайным?
Является ли наблюдение связанным с соседним наблюдением, дважды удаленным наблюдением и т. д.?
Можно ли смоделировать наблюдаемые временные ряды с помощью модели MA? Если да, то какой порядок?

График PACF может дать ответы на следующий вопрос:

Можно ли смоделировать наблюдаемые временные ряды с помощью модели AR? Если да, то какой порядок?

Ниже вы можете увидеть пример графика ACF и PACF. Эти графики называются «графики леденцов».

И ACF, и PACF начинаются с запаздывания 0, что является корреляцией временного ряда с самим собой и, следовательно, приводит к корреляции 1.Кроме того, вы можете видеть синяя область на графиках ACF и PACF. Эта синяя область отображает доверительный интервал 95 % и является индикатором порога значимости. Это означает, что все, что находится в синей области, статистически близко к нулю, а все, что находится за пределами синей области, статистически отлично от нуля.

Чтобы вычислить функцию автокорреляции (ACF) и функцию частичной автокорреляции (PACF) для временного ряда, вы можете использовать статистическое программное обеспечение или языки программирования, такие как R или Python.

Вот пример расчета ACF и PACF в R:

В этом примере функции acf() и pacf() используются для вычисления ACF и PACF соответственно для данных временного ряда, хранящихся в переменной data. Затем функция plot() используется для визуализации ACF и PACF.

Вы также можете использовать Python для расчета ACF и PACF. Вот пример использования библиотеки statsmodels:

В этом примере используются функции acf() и pacf() из библиотеки statsmodels для вычисления ACF и PACF соответственно для данных временных рядов, хранящихся в переменной data. Затем функции plot_acf() и plot_pacf() используются для визуализации ACF и PACF.

Интерпретация графиков ACF и PACF

Мы можем сделать следующие наблюдения:

Есть несколько автокорреляций, которые значительно отличны от нуля. Следовательно, временной ряд неслучайный.
Высокая степень автокорреляции между соседними (лаг = 1) и почти соседними (лаг = 2) наблюдениями на графике PACF
Геометрический распад на графике АКФ

Мы можем сделать следующие наблюдения:

Есть несколько автокорреляций, которые значительно отличны от нуля. Следовательно, временной ряд неслучайный.
Высокая степень автокорреляции между соседними (лаг = 1) и почти соседними (лаг = 2) наблюдениями на графике АКФ
Геометрический распад на графике PACF

Мы можем сделать следующее наблюдение:

Есть только одна автокорреляция, которая значительно отлична от нуля при отставании, равном 0. Следовательно, временной ряд является случайным.

Простая авторегрессионная модель (AR)

Простая авторегрессионная (AR) модель — это статистический метод прогнозирования временных рядов, который моделирует взаимосвязь между текущим значением и прошлыми значениями временного ряда. Он называется «простым», потому что включает только авторегрессионный член без интегрированного или скользящего среднего члена.

Чтобы реализовать простую модель AR, нам нужно выполнить следующие шаги:

Визуализируйте данные временных рядов, чтобы определить любые тенденции, сезонность или закономерности.
Определите порядок модели AR (p). Это можно сделать с помощью таких методов, как функция автокорреляции (ACF) и функция частичной автокорреляции (PACF).
Подбирайте модель AR к данным, используя определенное значение для p.
Используйте подобранную модель, чтобы сделать прогнозы для будущих значений временного ряда.
Чтобы выяснить порядок модели AR, вам нужно посмотреть на PACF.

Вот пример реализации простой модели AR на Python с использованием библиотеки statsmodels:

В этом примере модель AR(1) подгоняется к данным о солнечных пятнах и делается прогноз на следующие 12 временных шагов. Значение p (в данном случае 1) определяет порядок модели, которая, в свою очередь, определяет количество прошлых значений, используемых для составления прогноза. В этом примере для составления прогноза используется только предыдущее значение.

Важно отметить, что простая модель AR не всегда может быть наиболее подходящим методом прогнозирования временных рядов, поскольку она не учитывает тенденции или сезонность данных. В этих случаях более подходящими могут быть более сложные модели, такие как модель авторегрессионного интегрированного скользящего среднего (ARIMA).

Модель скользящего среднего (MA)

Модель скользящего среднего (MA) — это статистический метод прогнозирования временных рядов, который моделирует член ошибки в модели, который представляет собой разницу между прогнозом и фактическим значением. Он основан на идее, что член ошибки представляет собой случайный процесс белого шума, который не коррелирует с прошлыми значениями временного ряда.

Чтобы реализовать модель скользящего среднего, нам необходимо выполнить следующие шаги:

Визуализируйте данные временных рядов, чтобы определить любые тенденции, сезонность или закономерности.
Определите порядок модели скользящего среднего (q). Это можно сделать с помощью таких методов, как функция автокорреляции (ACF) и функция частичной автокорреляции (PACF).
Подбирайте модель скользящего среднего к данным, используя определенное значение для q.
Используйте подобранную модель, чтобы сделать прогнозы для будущих значений временного ряда.
Чтобы выяснить порядок модели MA, вам нужно посмотреть на ACF.

Вот пример реализации модели скользящего среднего в Python с использованием библиотеки statsmodels:

Этот пример подбирает модель скользящего среднего порядка 2 (MA(2)) к данным о солнечных пятнах и делает прогнозы на следующие 12 временных шагов. Значение q (в данном случае 2) определяет порядок модели, который, в свою очередь, определяет количество ошибок, используемых для прогноза. В этом примере прогноз основан на текущих и предыдущих условиях ошибки.

Важно отметить, что модель скользящего среднего не всегда может быть наиболее подходящим методом прогнозирования временных рядов, поскольку она не учитывает тенденции или сезонность данных. В этих случаях более подходящими могут быть более сложные модели, такие как модель авторегрессионного скользящего среднего (ARMA) или модель авторегрессионного интегрированного скользящего среднего (ARIMA).

Авторегрессионная скользящая средняя (ARMA)

Модель авторегрессионного скользящего среднего (ARMA) — это статистический метод прогнозирования временных рядов, который сочетает в себе модели авторегрессионного (AR) и скользящего среднего (MA). Он моделирует взаимосвязь между текущим значением и прошлыми значениями временного ряда, а также член ошибки в модели, который представляет разницу между прогнозом и фактическим значением.

Чтобы реализовать модель ARMA, нам необходимо выполнить следующие шаги:

Визуализируйте данные временных рядов, чтобы определить любые тенденции, сезонность или закономерности.
Определите порядок модели ARMA (p, q). Это можно сделать с помощью таких методов, как функция автокорреляции (ACF) и функция частичной автокорреляции (PACF).
Подбирайте модель ARMA к данным, используя определенные значения для p и q.
Используйте подобранную модель, чтобы сделать прогнозы для будущих значений временного ряда.

Вот пример реализации модели ARMA на Python с использованием библиотеки statsmodels:

В этом примере модель ARMA(2,1) подгоняется к данным о солнечных пятнах и делается прогноз на следующие 12 временных шагов. Значения p (в данном случае 2) и q (в данном случае 1) определяют порядки членов авторегрессии и скользящего среднего соответственно, которые, в свою очередь, определяют количество прошлых значений и членов ошибки, используемых для составления прогноза.

Важно отметить, что модель ARMA не всегда может быть наиболее подходящим методом для прогнозирования временных рядов, поскольку она может не отражать более сложные закономерности в данных. В этих случаях более подходящими могут быть более сложные модели, такие как модель авторегрессионного интегрированного скользящего среднего (ARIMA) или метод машинного обучения.

Авторегрессионное интегрированное скользящее среднее (ARIMA)

Модель авторегрессионного интегрированного скользящего среднего (ARIMA) — это статистический метод прогнозирования временных рядов, который сочетает в себе модели авторегрессионного (AR), интегрированного (I) и скользящего среднего (MA). Он моделирует взаимосвязь между текущим значением и прошлыми значениями временного ряда, а также разницу между текущим значением и прошлыми значениями и член ошибки в модели, который представляет разницу между прогнозом и фактическим значением.

Чтобы реализовать модель ARIMA, нам необходимо выполнить следующие шаги:

Визуализируйте данные временных рядов, чтобы определить любые тенденции, сезонность или закономерности.
Определите порядок модели ARIMA (p, d, q). Это можно сделать с помощью таких методов, как функция автокорреляции (ACF) и функция частичной автокорреляции (PACF).
Подбирайте модель ARIMA к данным, используя определенные значения для p, d и q.
Используйте подобранную модель, чтобы сделать прогнозы для будущих значений временного ряда.

Вот пример реализации модели ARIMA в Python с использованием библиотеки статистических моделей.

В этом примере модель ARIMA(2,1,2) подгоняется к данным о солнечных пятнах и делается прогноз на следующие 12 временных шагов. Значения p (в данном случае 2), d (в данном случае 1) и q (в данном случае 2) определяют порядки членов авторегрессии, интегрирования и скользящего среднего соответственно, которые, в свою очередь, определяют количество прошлые значения, различия и ошибки, используемые для составления прогноза.

Важно отметить, что модель ARIMA не всегда может быть наиболее подходящим методом для прогнозирования временных рядов, поскольку она может не отражать более сложные закономерности в данных. В этих случаях могут потребоваться другие подходы, такие как использование метода машинного обучения.

Сезонная авторегрессивная интегрированная скользящая средняя (SARIMA)

Сезонная авторегрессионная интегрированная модель скользящего среднего (SARIMA) — это статистический метод прогнозирования временных рядов, который учитывает как сезонность, так и автокорреляцию в данных. Это расширение модели авторегрессионного интегрированного скользящего среднего (ARIMA) с добавлением сезонных условий для моделирования повторяющихся закономерностей в данных.

Чтобы реализовать модель SARIMA, нам необходимо выполнить следующие шаги:

Визуализируйте данные временных рядов, чтобы определить любые тенденции, сезонность и закономерности.
Определите порядок модели SARIMA (p, d, q, P, D, Q, s). Это можно сделать с помощью таких методов, как функция автокорреляции (ACF) и функция частичной автокорреляции (PACF).
Подбирайте модель SARIMA к данным, используя определенные значения для p, d, q, P, D, Q и s.
Используйте подобранную модель, чтобы сделать прогнозы для будущих значений временного ряда.

Вот пример реализации модели SARIMA на Python с использованием библиотеки statsmodels:

Методы глубокого обучения

Прогнозирование временных рядов с использованием глубокого обучения предполагает использование нейронных сетей для прогнозирования будущих значений временного ряда на основе прошлых значений. Глубокое обучение — это тип машинного обучения, который включает в себя обучение искусственных нейронных сетей на большом наборе данных, что позволяет модели изучать сложные закономерности и взаимосвязи в данных.

Существует несколько моделей глубокого обучения, которые можно использовать для прогнозирования временных рядов, в том числе сети с долговременной кратковременной памятью (LSTM), закрытые рекуррентные единицы (GRU) и сверточные нейронные сети (CNN).

Вот пример использования сети LSTM для прогнозирования временных рядов в Python с использованием библиотеки Keras:

В этом примере слой LSTM используется для построения сети LSTM для прогнозирования временных рядов. Модель обучается на обучающих данных с помощью функции fit(), а затем обученная модель используется для прогнозирования тестовых данных с помощью функции predict(). Затем прогнозы обратно преобразуются в исходный масштаб с использованием объекта масштабирования, который соответствовал обучающим данным.

Закрытые рекуррентные единицы (GRU) — это тип рекуррентной нейронной сети (RNN), который можно использовать для прогнозирования временных рядов. Как и другие RNN, GRU могут обрабатывать последовательные данные и фиксировать временные зависимости, что делает их хорошо подходящими для таких задач, как языковой перевод и прогнозирование временных рядов.

Вот пример использования GRU для прогнозирования временных рядов в Python с использованием библиотеки Keras:

В этом примере слой GRU используется для построения сети GRU для прогнозирования временных рядов. Модель обучается на обучающих данных с помощью функции fit(), а затем обученная модель используется для прогнозирования тестовых данных с помощью функции predict(). Затем прогнозы обратно преобразуются в исходный масштаб с использованием объекта масштабирования, который соответствовал обучающим данным.

Трансформеры – это тип модели глубокого обучения, эффективность которой доказана для различных задач, включая обработку естественного языка и прогнозирование временных рядов. Преобразователи основаны на механизме внимания, который позволяет модели сосредоточиться на определенных частях входных данных и динамически взвешивать их важность при формировании выходных данных.

Вот пример использования преобразователя для прогнозирования временных рядов в Python с использованием библиотеки Transformers:

В этом примере модель BertForSeq2SeqDecoder из библиотеки Transformers используется для построения преобразователя для прогнозирования временных рядов. Модель обучается на обучающих данных с помощью функции fit(), а затем обученная модель используется для прогнозирования тестовых данных с помощью функции predict(). Затем прогнозы обратно преобразуются в исходный масштаб с использованием объекта масштабирования, который соответствовал обучающим данным.

Методы сглаживания для прогнозирования временных рядов

Методы сглаживания — это методы, которые используются для сглаживания шума и случайных колебаний в данных временных рядов, что упрощает выявление лежащих в их основе закономерностей и тенденций. Существует несколько типов методов сглаживания, которые можно использовать для прогнозирования временных рядов, в том числе:

Простое скользящее среднее (SMA): этот метод включает в себя получение среднего значения за заданное количество последовательных временных шагов для сглаживания данных. Вот пример использования простого скользящего среднего для сглаживания временного ряда в Python:

2. Взвешенное скользящее среднее (WMA): этот метод предполагает придание большего веса последним временным шагам при расчете среднего. Это может быть полезно для сглаживания данных с трендом. Вот пример использования взвешенного скользящего среднего для сглаживания временного ряда в Python:

3. Экспоненциальное сглаживание. Этот метод предполагает придание большего веса недавним временным шагам и экспоненциальное уменьшение веса более старых временных шагов. Это может быть полезно для сглаживания данных с трендом. Вот пример использования экспоненциального сглаживания для сглаживания временного ряда в Python:

Экспоненциальное сглаживание Холта

Экспоненциальное сглаживание Холта — это метод прогнозирования временных рядов, сочетающий экспоненциальное сглаживание с экстраполяцией тренда. Он включает в себя оценку уровня (среднего) и тренда (наклона) временного ряда и использование этих оценок для прогнозирования будущих значений.

Существует несколько вариантов экспоненциального сглаживания Холта, в том числе:

Простое экспоненциальное сглаживание: этот метод учитывает только уровень временного ряда, не принимая во внимание какой-либо тренд.
Метод линейного тренда Холта: этот метод оценивает уровень и тренд временного ряда с помощью линейной экстраполяции.
Метод затухающего тренда Холта: этот метод оценивает уровень и тренд временного ряда с помощью экстраполяции затухающего тренда, которая включает постепенное уменьшение тренда по мере увеличения горизонта прогноза.

Вот пример использования метода линейного тренда Холта для прогнозирования временного ряда в Python с использованием библиотеки Statsmodels:

В этом примере функция Holt из библиотеки Statsmodels используется для подгонки модели линейного тренда Холта к данным временных рядов. Затем функция fit() используется для подгонки модели, а функция forecast() используется для составления прогнозов на следующие 10 временных шагов.

Экспоненциальное сглаживание Холта-Уинтерса

Экспоненциальное сглаживание Холта-Винтерса — это метод прогнозирования временных рядов, который учитывает как тенденцию, так и сезонность данных. Это расширение простого экспоненциального сглаживания, которое учитывает только уровень (т. е. текущее значение) временного ряда.

Метод предполагает использование трех коэффициентов сглаживания: альфа (уровень), бета (тренд) и гамма (сезонность). Коэффициенты используются для сглаживания данных временных рядов и составления прогнозов.

Вот пример того, как экспоненциальное сглаживание Холта-Винтерса может быть реализовано в Python:

В этом примере мы подгоняем модель экспоненциального сглаживания Холта-Винтерса к данным временного ряда, хранящимся в Pandas DataFrame. Аргументы trend и seasonal указывают, что модель должна включать как тренд, так и сезонность. Аргумент seasonal_periods указывает количество периодов за сезон, в данном случае 12 для месячных данных. Метод fit используется для подгонки модели под данные, а метод forecast используется для составления прогноза на следующие 12 периодов.

Заключение

Это было базовое введение в методы и концепции прогнозирования временных рядов в машинном обучении. Продолжайте следить за моими блогами, чтобы не пропустить новые статьи о машинном обучении и науке о данных.

Надеюсь, вам понравилось это, и вы поможете кому-то быстрее начать работу с концепциями.

Спасибо, что прочитали. ❤️

Концепции и методы прогнозирования временных рядов с примерами реализации

Заключение

Похожие вопросы