[Неделя 6 – Оценка стоимости недвижимости]

Обзор недели

На этой неделе проект продолжается с наблюдением за алгоритмами CatBoost и XGBoost. Этот пост в блоге включает результаты алгоритмов, метрик и анализа функций.

XGBoost и CatBoost

Если мы хотим вкратце поговорить о XGBoost и Catboost,

XGBoost — это оптимизированная распределенная библиотека повышения градиента, разработанная для того, чтобы быть высокоэффективной, гибкой и портативной. Он реализует алгоритмы машинного обучения в рамках Gradient Boosting framework. XGBoost обеспечивает параллельное повышение дерева, которое быстро и точно решает многие проблемы науки о данных. Один и тот же код работает в крупной распределенной среде и может решать проблемы, число которых превышает миллиарды примеров.

XGBoost зависит от итерации в соответствии с гиперпараметрами, такими как количество ускорений, ранняя остановка раунда и т. Д. Программа будет остановлена, когда найдет лучший показатель MAE для обучения и проверки.

CatBoost основан на деревьях решений с градиентным усилением. В процессе обучения последовательно строится набор деревьев решений. Каждое последующее дерево строится с меньшими потерями по сравнению с предыдущими деревьями. CatBoost более успешен для категориальных признаков. Это преимущество создает более надежную модель.

Особенности кошки:

транзакция_год
транзакция_месяц
транзакция_день
transaction_quarter
кондиционер
идентификатор типа здания
фипс
идентификатор типа отопления или системы
недвижимостьокругземляиспользованиекод
идентификатор_типа_земли_собственности
регионидгород
регионидокруг
регион
регионidzip
год постройки
год оценки

В проекте эти функции, указанные выше, будут использоваться для прогнозирования в CatBoost.CatBoost основан на деревьях решений. Проект работает с гиперпараметрами, такими как количество итераций, скорость обучения, leaf_regression и глубина.

Модель, обученная CatBoost, пересчитывается шаг за шагом во время итерации.

XGBoost и CatBoost используют показатель Mean Absolute Error для расчета ошибки. MAEизмеряет среднюю величину ошибок в наборе прогнозов без учета их направления. Это среднее значение по тестовой выборке абсолютных различий между прогнозом и фактическим наблюдением, где все индивидуальные различия имеют одинаковый вес. Если абсолютное значение не используется (ошибки не удаляются), средняя ошибка представляет собой среднюю ошибку смещения (MBE). и обычно используется для измерения среднего отклонения модели. МВЕ может передавать полезную информацию, но ее необходимо тщательно интерпретировать, поскольку она устраняет положительные и отрицательные ошибки. Таким образом, использование MAE лучше, чем MBE.

[Неделя 6 – Оценка стоимости недвижимости]

Обзор недели

XGBoost и CatBoost

использованная литература

Похожие вопросы