Между линейной регрессией и регрессией случайного леса, какая модель будет работать лучше и почему?
Давайте сначала быстро объясним различия между линейной и случайной регрессией леса, прежде чем углубляться в то, какой из них лучше всего подходит для бронирования.
Регрессия случайного леса основана на технике группового машинного обучения по бэггингу. Две ключевые концепции случайных лесов:
- Случайная выборка обучающих наблюдений при построении деревьев.
- Случайные подмножества функций для разделения узлов.
Регрессии случайного леса также дискретизируют непрерывные переменные, поскольку они основаны на деревьях решений, которые функционируют посредством рекурсивного двоичного разбиения в узлах. Фактически это означает, что мы можем разбивать не только категориальные переменные, но и разбивать непрерывные переменные. Кроме того, при наличии достаточного количества данных и достаточного количества разбиений ступенчатая функция с множеством небольших шагов может аппроксимировать гладкую функцию для прогнозирования выходных данных.
С другой стороны, линейная регрессия — это стандартный метод регрессии, в котором отношения моделируются с использованием функции линейного предиктора, наиболее распространенного примера y = Ax + B. Модели линейной регрессии часто подбираются с использованием наименьшего подходят квадраты.
В линейной регрессии также есть четыре основных предположения:
- Нормальное распределение ошибок
- Независимость в предикторах
- Средние остатки должны быть равны нулю с постоянной дисперсией
- Нет корреляции между признаками
Так как же нам отличить регрессию случайного леса от линейной регрессии независимо от постановки задачи?
Разница между регрессией случайного леса и стандартными методами регрессии для многих приложений заключается в следующем:
- Регрессия случайного леса может аппроксимировать сложные нелинейные формы без предварительной спецификации. Линейная регрессия работает лучше, когда базовая функция является линейной и имеет много непрерывных предикторов.
- Регрессия случайного леса позволяет использовать произвольное количество предикторов (возможно больше предикторов, чем точек данных)
- Регрессия случайного леса также может улавливать сложные взаимодействия между прогнозами без предварительной спецификации.
- Оба дадут некоторое подобие «особенности важности». Однако важность функции линейной регрессии гораздо легче интерпретировать, чем случайный лес, учитывая значения коэффициента линейной регрессии, прикрепленные к каждому предиктору.
Теперь давайте посмотрим, как каждая модель применима к бронированиям Airbnb. Одна вещь, которую нам нужно сделать в ходе интервью, — это лучше понять контекст проблемы прогнозирования бронирований.
Для этого нам нужно понять, какие функции существуют в нашем наборе данных.
Мы можем предположить, что набор данных будет иметь такие функции, как:
- особенности местоположения
- Сезонность
- количество спален и ванных комнат
- отдельная комната, общая, весь дом и т. д..
- Внешний спрос (конференции, фестивали и т. д.)
Можем ли мы экстраполировать эти функции в линейную модель, которая имеет смысл?
Наверное. Если бы нам нужно было измерить стоимость бронирований только в одном городе, мы, вероятно, смогли бы получить приличную линейную регрессию.
Возьмем, к примеру, Сиэтл: коэффициент для каждой спальни, ванной комнаты, времени месяца и т. д. можно было бы стандартизировать по всему городу, если бы у нас была хорошая переменная, учитывающая местоположение в городе.
Учитывая нюансы различных событий, влияющих на ценообразование, мы могли бы создавать настраиваемые эффекты взаимодействия между функциями, если, например, масштабный фестиваль внезапно увеличивает спрос на дома с тремя или четырьмя спальнями.
Однако, предположим, у нас есть тысячи объектов в нашем наборе данных, чтобы попытаться спрогнозировать цены на различные типы домов по всему миру. Если мы запустим регрессионную модель случайного леса, преимущества теперь заключаются в формировании сложных нелинейных комбинаций в модель из набора данных, который может содержать однокомнатные квартиры в Сиэтле и особняки в Хорватии.
Но если наш набор проблем возвращается к простому примеру одного почтового индекса Сиэтла, то наш набор функций резко сокращается из-за различий в географии и типе аренды, а обычная линейная регрессия имеет преимущества в том, что позволяет понять интерпретируемость модели. для количественной оценки факторов ценообразования.
Квартира с одной спальней и двумя ванными комнатами, вероятно, может удвоиться в цене по сравнению с одной спальней и одной ванной комнатой, учитывая количество гостей, которые она может вместить, но это взаимодействие может быть неверным в других частях мира с другими ценами спроса.