Почему эконометрика должна быть частью ваших навыков

Как специалист по данным со степенью магистра эконометрики, я потратил некоторое время, чтобы понять тонкости, которые делают машинное обучение дисциплиной, отличной от эконометрики. Я хотел бы поговорить с вами об этих тонкостях, которые не очевидны на первый взгляд и которые заставляли меня удивляться на протяжении всего моего пути.

Прежде всего… что такое машинное обучение?… Что такое эконометрика?

Эконометрика - это применение статистических методов к экономическим данным с целью придания эмпирического содержания экономическим отношениям. Точнее, это количественный анализ реальных экономических явлений, основанный на одновременном развитии теории и наблюдений, связанных соответствующими методами вывода

Машинное обучение (ML) - это научное исследование алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения определенной задачи без использования явных инструкций, полагаясь на шаблоны. и вывод вместо этого. Он рассматривается как разновидность искусственного интеллекта. Алгоритмы машинного обучения создают математическую модель на основе выборочных данных, известных как данные обучения, чтобы делать прогнозы или принимать решения без явного программирования для выполнения задачи

Хорошо, поэтому им обоим нужны данные, оба используют статистические модели, оба делают выводы, так что, согласно их определениям, машинное обучение, похоже, имеет дело с более широкими проблемами, чем просто экономика. Итак, почему эконометрика все еще существует ?! Это вопрос, который я задал себе, когда открыл для себя машинное обучение примерно в то же время, когда начал свои эконометрические исследования.

Как будущему хорошему эконометристу мне нужно отлично жонглировать числами, иметь солидный опыт в Statistics, быть экспертом в linear algreba и Mathematical optimization и, наконец, иметь компьютерные навыки, чтобы играть с данными. Эти навыки будут использованы для понимания, демонстрации применения моих алгоритмов регрессии, классификации, кластеризации или прогнозирования временных рядов. В течение этого года я очень глубоко изучу некоторые алгоритмы, такие как Linear Regression , Logistic Regression , Kmeans , _7 _ , VAR … и т. д. Ждать ? Эти алгоритмы также используются для машинного обучения!

От теоретической к эмпирической эффективности

Фундаментальное различие между машинным обучением и эконометрикой заключается в их теоретической основе. Эконометрика имеет прочную основу в математической статистике и теории вероятностей. Алгоритмы математически устойчивы с очевидными и привлекательными свойствами, эти алгоритмы в основном оцениваются по надежности их основы.

В машинном обучении математика, конечно, не отсутствует, но она присутствует для объяснения поведения алгоритма, а не для демонстрации его надежности и привлекательных свойств. Эти алгоритмы в основном оцениваются по их эмпирической эффективности. Очень показательный пример - успех алгоритма Xgboost, который обязан своим успехом доминированию над несколькими соревнованиями по машинному обучению, а не его математической демонстрации.

От точности к приближению

Еще одно отличие состоит в том, что у эконометрики есть только одно решение, учитывая заданную модель и набор данных, параметры параметрической регрессии вычисляются с использованием алгебраической формулы. best linear unbiased estimator (СИНИЙ) коэффициентов определяется методом оценки обычных наименьших квадратов (МНК) в случае, когда соблюдаются некоторые допущения. Здесь лучший означает наименьшую дисперсию оценки по сравнению с другими несмещенными линейными оценками.

Хотя большинство алгоритмов машинного обучения слишком сложны, чтобы их можно было описать одной математической формулой. Их решения были определены алгоритмически с помощью итеративного метода, называемого этапом обучения, цель которого - найти решение, которое наилучшим образом соответствует нашим данным, поэтому решение, определенное алгоритмом машинного обучения, является приблизительным и наиболее вероятно оптимальным.

От параметрической модели к непараметрической

Эконометрические модели (т.е. параметрические в большинстве случаев) основаны на экономической теории. Затем используются традиционные инструменты статистического вывода (такие как метод максимального правдоподобия) для оценки значений вектора параметров θ в параметрической модели mθ. Тогда асимптотическая теория играет важную роль (разработки Тейлора, закон больших чисел и центральная предельная теорема… и т. Д.).

В машинном обучении, с другой стороны, непараметрические модели часто строятся, почти исключительно на основе данных (не делается никаких допущений о распределении), а используемые мета-параметры (глубина дерева, параметр штрафа и т. Д.) Оптимизируются с помощью перекрестная проверка, алгоритм поиска по сетке или любой алгоритм оптимизации гиперпараметров.

От теоретического к эмпирическому подтверждению

Вы поймете это, шаблон будет таким же, как раньше, эконометрика полагается на надежный математический тест для проверки модели, мы обычно говорим о goodness of fit модели. Он оценивается путем проверки гипотез, оценки нормальности остатков, сравнения выборочных распределений. Мы также говорим о , который представляет собой долю дисперсии в зависимой переменной, которая предсказуема по независимой (ым) переменной (ам), AIC|BIC, которые оценивают качество каждой модели относительно каждой из других моделей или оценок переменных через p-value .

Оценка моделей машинного обучения будет зависеть от их предсказания, основная идея заключается в том, что если модель способна хорошо предсказывать, то она успешно изучила скрытые закономерности в данных. Чтобы гарантировать, что модель не переоборудована, набор данных будет разделен на обучающий набор и тестовый набор, а затем появится блок cross-validation для проверки обобщающей способности модели и отсутствия предвзятости в разделении данных. Наконец, мы будем использовать KPI, которые дадут нам меру разрыва с реальностью, подобнойRMSE, MAE или Accuracy.

От теоретической конвергенции к расхождению в целях

И эконометрика, и машинное обучение пытаются определить функцию, которая определяет набор переменных-предикторов, которые будут моделировать прогнозируемую переменную:

  • ɛ являются реализациями случайных величин i.i.d. закона N (0, σ2), также называемых остаточными и исходящими из эконометрики, в противном случае y = f (x) принадлежит машинному обучению.

На бумаге на данном этапе кажется, что эти два аспекта сходятся, но также объективно и объективно они расходятся. Целью машинного обучения в большинстве случаев является y, в то время как целью эконометрики является оценка β каждого предиктора.

Основная цель эконометрики - не прогнозирование, а количественная оценка экономического явления.

От теории к практике!

Если мы посмотрим на эти различия на практике, мы начнем с классической эконометрической модели и одной из наиболее широко используемых моделей - линейной регрессии. Для этого мы будем наблюдать результаты нашего моделирования посредством реализации библиотеки sklearn, которая в основном обслуживает модели машинного обучения, и реализации библиотеки statsmodels, которая более эконометрически ориентирована.

#import library
import pandas as pd
import numpy as np
import seaborn as sns
import statsmodels.api as sm
from sklearn import linear_model
#import data 
iris = sns.load_dataset("iris")

Давайте сравним обе реализации

dummies = pd.get_dummies(iris["species"], drop_first=False)
iris = pd.concat([iris, dummies], axis=1)
iris.head()

Поскольку Species является категориальной переменной, нам нужно преобразовать ее в формат, который может обрабатывать компьютер, поэтому мы переходим к формату кодирования onehot. Начнем с машинного обучения.

Мы можем извлечь коэффициенты модели и параметр наклона beta0 через объект модели. Давайте попробуем со статистическими моделями.

Statsmodels дает нам много информации по сравнению со sklearn, мы получили очень хороший R², AIC, BIC, о которых мы говорили ранее, коэффициент каждой переменной и предупреждения. Попробуем предсказать:

У нас одинаковое R² и очень хорошие mae и Rmse… но мы констатируем, что коэффициенты не равны между обеими моделями. Статистические модели предупреждают нас, что существует вероятность того, что наша модель Multicollinear! Это относится к ситуации, в которой две или более независимых переменных в модели множественной регрессии сильно линейно связаны, что означает, что в нашем наборе данных есть лишняя информация. Информация поступает из переменной вида, мы должны отбросить одну категорию, потому что очевидно, что если ирис не сетоза или вергиника, то разноцветный.

Это означает, что, хотя наша модель имеет сильное R² и, следовательно, высокую предсказательную силу, эти коэффициенты смещены и не поддаются интерпретации.

Эта информация не была передана нам через sklearn. Давайте исправим это, передав drop_first = True.

Statsmodel удалила предупреждение, теперь у нас есть несмещенные коэффициенты. Более того, асимметрия близка к 0 и эксцесс, что означает, что наш остаток, вероятно, нормален, вероятность Жарка-Бера подтверждает, что это хорошая модель. Давайте повторно запустим нашу модель sklearn:

В конце концов, мы получили то же самое, давайте немного почитаем. Видно, что при прочих равных, увеличение длины лепестков на 1% увеличивает ширину лепестка на 0,24 см. В случае категориальных переменных мы всегда ссылаемся на отсутствующую категорию, мы видим, что при прочих равных условиях лепесток вида verginica на 1,04 см шире, чем у отсутствующего вида setosa. Все p-значения значимы при пороге 5%, поэтому наши коэффициенты считаются надежными и несмещенными. Мы видели анализ модели линейной регрессии, которую также можно перенести на классификацию. Логистическая регрессия предлагает очень интересное чтение в анализе модели, я бы обсудил чтение отношения шансов в будущей статье.

Читая анализ моделей, я бы обсудил чтение отношения шансов в будущей статье.

Заключить

Вероятностные основы эконометрики, несомненно, являются ее сильной стороной не только с возможностью интерпретации моделей, но и с количественной оценкой неопределенности. Тем не менее прогностическая эффективность моделей машинного обучения интересна, потому что они позволяют нам выявить плохую спецификацию эконометрической модели, а некоторые из этих алгоритмов больше подходят для неструктурированных данных. Эконометрика должна быть строгой, но становится очень важным инструментом экономического факторного анализа. Если ваш руководитель просит вас количественно оценить эффект, это может быть актуальным в дополнение к предоставлению статистической и математической достоверности.