Полное введение в анализ временных рядов (с R)

В последнем разделе мы обсудили выбор модели для моделей ARMA (p, q) с использованием AIC, AICc, BIC, которые являются метрическими функциями, основанными на правдоподобии и параметрах, обеспечивая определенную меру, которую можно использовать для сравнения моделей с друг друга по одним и тем же данным. В этой статье мы перейдем к ранее изученным идеям дифференциации и сезонности и посмотрим, как их можно интегрировать в модель ARMA. Начнем с обзора некоторых основных концепций из раздела Различия.

Различие

Если вам нужно что-то напомнить, вы можете прочитать эту статью, в которой я подробно все это обсуждаю. Вся идея наличия этих операторов заключается в том, что мы могли бы существенно упростить некоторые временные ряды, исключив некоторую систематическую составляющую тренда (и даже некоторую сезонность). Как мы можем формализовать это для моделей ARMA (p, q)?

Интегрированное скользящее среднее с авторегрессией: ARIMA (p, d, q)

Это формализует методы дифференцирования, которые мы видели ранее в рамках Классической модели разложения. В частности, мы используем оператор разницы d- для устранения тенденций (и, как следствие, некоторых отклонений, как мы видели ранее). Это означает, что модель ARIMA (p, d, q) может использоваться даже для процессов с трендом, хотя обычно рекомендуется удалить ее в любом случае!

Тривиальные случаи ARIMA (p, d, q)

Как вы можете догадаться, есть некоторые равенства, которые мы можем вывести из модели ARIMA (p, d, q):

Пример: ARIMA (1,1,0)

Приведем конкретный пример: пусть {X_t} ~ ARIMA (1,1,0). Тогда этот процесс имеет вид

Теперь, что произойдет, если коэффициент phi равен нулю, а если нет?

что является Случайным блужданием! , явно не стационарный. Однако обратите внимание, что

То есть путем дифференцирования мы получаем случайный шум, который на самом деле является стационарным процессом.

также у нас есть это

что следует из причинно-следственного процесса. (См. Эту статью). Следовательно, мы можем переписать его как

И снова очевидно, что X_ {t} не является стационарным процессом, поскольку это случайное блуждание процессов AR (1), однако мы видим, что Y_ {t} является !

Стационарность моделей ARIMA (p, d, q)

Идея доказательства

Мы проиллюстрировали процесс для ARIMA (1,1,1), но рассуждение очевидно обобщается для ARIMA (p, d, q). Мы можем проанализировать лежащие в основе Y_ {j}, если учесть разницу:

Предположим, что полиномы AR (p) и MA (q) имеют корни внутри единичной окружности (см. Эту статью). Однако полином

имеет корни d на единичной окружности, поэтому X_ {t} явно не является стационарным.

Выбор модели для моделей ARIMA (p, d, q)

Два подхода:

Отрегулируйте AIC / AICc / BIC, чтобы учесть дополнительный параметр.
Проверьте единичный корень.

Первый идентичен тому, что мы рассматривали в предыдущей статье.

Как видите, это не слишком отличается от того, что было у нас раньше. Выбор модели в этом случае выполняется так же, как и раньше: выберите критерий, попробуйте несколько моделей в одном наборе данных и выберите ту модель, которая имеет наименьшую метрику. Пока это кажется хорошим подходом. Однако некоторые статистики утверждают, что нельзя использовать методы, основанные на правдоподобии, из-за разностного фактора. В самом деле, как мы можем проверить, что наш выбор d, в частности, хорош? Вместо этого мы проверим единичные корни. На этом принципе построены следующие два подхода:

Интуиция

Рассмотрим (возможно) ненулевой процесс

Мы можем понять разницу

, где

Следовательно,

тогда X_ {t} нестационарен. Тест ADP расширяет эту идею до полиномов AR (p).

Тест Квятовского-Филлипса-Шмидта-Шина (KPSS)

Этот тест очень похож по своей природе на предыдущие, за исключением того, что нулевая и альтернативная гипотезы меняются местами. Кроме того, нулевая гипотеза фактически указывает на то, что временной sereis является стационарным вокруг детерминированного тренда. Эта тенденция может увеличиваться или уменьшаться, но не влияет на стационарность после удаления. Если вам интересно, оригинал статьи можно найти здесь.

HowToR

Как обычно, мы начинаем с импорта некоторых пакетов:

Мы будем использовать WWWusage данные, доступные в R наборах данных (загружать их не нужно). Эти данные сами по себе являются показателем того, в какой степени люди использовали Интернет в течение определенного периода времени. Во-первых, давайте кратко рассмотрим данные:

Мы видим, что большинство значений находятся в диапазоне от 99 до 168. Затем мы можем построить сами данные вместе с их ACF и PACF:

Сразу же мы видим явные признаки нестационарности ACF и сильную частичную автокорреляцию для первых двух лагов.

Поскольку мы не можем отклонить нуль в тесте ADF и отклонить его в тесте KPSS, это дает нам свидетельство того, что процесс действительно не является стационарным. Одна вещь, которую мы можем попробовать, это то, имеет ли какое-либо значение различие и учет различных порядков задержки, используемых для расчета статистики.

Мы видим, что среди всего этого, только используя lag-order=1, мы отклоняем нуль. Проблема в том, что мы даже не уверены, какая это будет модель, поскольку стационарность - это концепция, почти соответствующая моделям ARMA (p, q), как мы видели ранее. Следовательно, используя этот тест по отношению к некоторой подобранной модели, мы должны сначала предположить, что модель действительно верна. Тогда нам следует использовать другие тесты стационарности и помнить об этом.

Подгонка модели

Следующее, что нужно сделать, это подобрать несколько моделей. Мы будем использовать функцию auto.arima, которую мы видели в предыдущей статье. Обратите внимание, что мы устанавливаем сезонный аргумент равным FALSE. Вы можете догадаться, что будет, если мы его установим?

Обратите внимание, как мы получили модель ARIMA (3,1,0). Это означает, что если бы мы однажды взяли разницу в модели, в результате мы получили бы модель AR (3). Давайте проверим полученную модель и соответствующие корни:

Это говорит нам о том, что после дифференцирования модель действительно должна быть причинной и стационарной, поскольку все обратные корни попадают в единичный круг. Мы можем проверить это, применив тест ADF также к невязкам:

Точно так же построение остатков и их функций ACF и PACF приводит нас к такому же выводу:

Обратите внимание, что мы также можем попытаться применить предельную степень к функции auto.arima, чтобы полиномы или разностные компоненты не превышали это число. Например, мы можем применить d=2, что оставит нам ARIMA (2,2,0) в качестве нашей лучшей модели:

Мы видим, что в этом случае полученная модель с двойной степенью разности ARMA (2,2,0) фактически сопоставима по аппроксимации с той, которую мы получили ранее.

В следующий раз

На этом пока все! В следующей статье мы рассмотрим так называемые сезонные модели ARIMA или модели SARIMA, еще одно полезное расширение в нашем арсенале моделей временных рядов.

Полное введение в анализ временных рядов (с R) :: модели SARIMA
В прошлой статье мы увидели одно важное полезное расширение моделей ARMA: интегрированное движение авторегрессии. … medium.com

Последний раз

Выбор модели для ARMA (p, q)

Полное введение в анализ временных рядов (с R) :: Выбор модели для ARMA (p, q)
В последнем разделе мы узнали о гауссовых временных рядах, мощное и гибкое предположение, когда речь идет о… hair-parra.medium.com »

Главная страница

Полное введение в анализ временных рядов (с R)
Во время пандемии Covid19 вы, возможно, слышали о совместных усилиях по прогнозированию новых… medium.com

Следуй за мной в

Волос Парра - Data Scientist / Data Engineer - DevX Analytics - Cisco | LinkedIn
Просмотрите профиль Hair Parra в LinkedIn, крупнейшем в мире профессиональном сообществе. У Hair есть 8 вакансий, перечисленных на их… www.linkedin.com

Полное введение в анализ временных рядов (с R) :: модели ARIMA и SARIMA