Обзор недели
На этой неделе проект продолжается с наблюдением за алгоритмами CatBoost и XGBoost. Этот пост в блоге включает результаты алгоритмов, метрик и анализа функций.
XGBoost и CatBoost
Если мы хотим вкратце поговорить о XGBoost и Catboost,
XGBoost — это оптимизированная распределенная библиотека повышения градиента, разработанная для того, чтобы быть высокоэффективной, гибкой и портативной. Он реализует алгоритмы машинного обучения в рамках Gradient Boosting framework. XGBoost обеспечивает параллельное повышение дерева, которое быстро и точно решает многие проблемы науки о данных. Один и тот же код работает в крупной распределенной среде и может решать проблемы, число которых превышает миллиарды примеров.
XGBoost зависит от итерации в соответствии с гиперпараметрами, такими как количество ускорений, ранняя остановка раунда и т. Д. Программа будет остановлена, когда найдет лучший показатель MAE для обучения и проверки.
CatBoost основан на деревьях решений с градиентным усилением. В процессе обучения последовательно строится набор деревьев решений. Каждое последующее дерево строится с меньшими потерями по сравнению с предыдущими деревьями. CatBoost более успешен для категориальных признаков. Это преимущество создает более надежную модель.
Особенности кошки:
- транзакция_год
- транзакция_месяц
- транзакция_день
- transaction_quarter
- кондиционер
- идентификатор типа здания
- фипс
- идентификатор типа отопления или системы
- недвижимостьокругземляиспользованиекод
- идентификатор_типа_земли_собственности
- регионидгород
- регионидокруг
- регион
- регионidzip
- год постройки
- год оценки
В проекте эти функции, указанные выше, будут использоваться для прогнозирования в CatBoost.CatBoost основан на деревьях решений. Проект работает с гиперпараметрами, такими как количество итераций, скорость обучения, leaf_regression и глубина.
Модель, обученная CatBoost, пересчитывается шаг за шагом во время итерации.
XGBoost и CatBoost используют показатель Mean Absolute Error для расчета ошибки. MAEизмеряет среднюю величину ошибок в наборе прогнозов без учета их направления. Это среднее значение по тестовой выборке абсолютных различий между прогнозом и фактическим наблюдением, где все индивидуальные различия имеют одинаковый вес. Если абсолютное значение не используется (ошибки не удаляются), средняя ошибка представляет собой среднюю ошибку смещения (MBE). и обычно используется для измерения среднего отклонения модели. МВЕ может передавать полезную информацию, но ее необходимо тщательно интерпретировать, поскольку она устраняет положительные и отрицательные ошибки. Таким образом, использование MAE лучше, чем MBE.