Обзор недели

На этой неделе проект продолжается с наблюдением за алгоритмами CatBoost и XGBoost. Этот пост в блоге включает результаты алгоритмов, метрик и анализа функций.

XGBoost и CatBoost

Если мы хотим вкратце поговорить о XGBoost и Catboost,

XGBoost — это оптимизированная распределенная библиотека повышения градиента, разработанная для того, чтобы быть высокоэффективной, гибкой и портативной. Он реализует алгоритмы машинного обучения в рамках Gradient Boosting framework. XGBoost обеспечивает параллельное повышение дерева, которое быстро и точно решает многие проблемы науки о данных. Один и тот же код работает в крупной распределенной среде и может решать проблемы, число которых превышает миллиарды примеров.

XGBoost зависит от итерации в соответствии с гиперпараметрами, такими как количество ускорений, ранняя остановка раунда и т. Д. Программа будет остановлена, когда найдет лучший показатель MAE для обучения и проверки.

CatBoost основан на деревьях решений с градиентным усилением. В процессе обучения последовательно строится набор деревьев решений. Каждое последующее дерево строится с меньшими потерями по сравнению с предыдущими деревьями. CatBoost более успешен для категориальных признаков. Это преимущество создает более надежную модель.

Особенности кошки:

  • транзакция_год
  • транзакция_месяц
  • транзакция_день
  • transaction_quarter
  • кондиционер
  • идентификатор типа здания
  • фипс
  • идентификатор типа отопления или системы
  • недвижимостьокругземляиспользованиекод
  • идентификатор_типа_земли_собственности
  • регионидгород
  • регионидокруг
  • регион
  • регионidzip
  • год постройки
  • год оценки

В проекте эти функции, указанные выше, будут использоваться для прогнозирования в CatBoost.CatBoost основан на деревьях решений. Проект работает с гиперпараметрами, такими как количество итераций, скорость обучения, leaf_regression и глубина.

Модель, обученная CatBoost, пересчитывается шаг за шагом во время итерации.

XGBoost и CatBoost используют показатель Mean Absolute Error для расчета ошибки. MAEизмеряет среднюю величину ошибок в наборе прогнозов без учета их направления. Это среднее значение по тестовой выборке абсолютных различий между прогнозом и фактическим наблюдением, где все индивидуальные различия имеют одинаковый вес. Если абсолютное значение не используется (ошибки не удаляются), средняя ошибка представляет собой среднюю ошибку смещения (MBE). и обычно используется для измерения среднего отклонения модели. МВЕ может передавать полезную информацию, но ее необходимо тщательно интерпретировать, поскольку она устраняет положительные и отрицательные ошибки. Таким образом, использование MAE лучше, чем MBE.

использованная литература