Вопрос интервью AirBnb Data Science

Между линейной регрессией и регрессией случайного леса, какая модель будет работать лучше и почему?

Давайте сначала быстро объясним различия между линейной и случайной регрессией леса, прежде чем углубляться в то, какой из них лучше всего подходит для бронирования.

Регрессия случайного леса основана на технике группового машинного обучения по бэггингу. Две ключевые концепции случайных лесов:

Случайная выборка обучающих наблюдений при построении деревьев.
Случайные подмножества функций для разделения узлов.

Регрессии случайного леса также дискретизируют непрерывные переменные, поскольку они основаны на деревьях решений, которые функционируют посредством рекурсивного двоичного разбиения в узлах. Фактически это означает, что мы можем разбивать не только категориальные переменные, но и разбивать непрерывные переменные. Кроме того, при наличии достаточного количества данных и достаточного количества разбиений ступенчатая функция с множеством небольших шагов может аппроксимировать гладкую функцию для прогнозирования выходных данных.

С другой стороны, линейная регрессия — это стандартный метод регрессии, в котором отношения моделируются с использованием функции линейного предиктора, наиболее распространенного примера y = Ax + B. Модели линейной регрессии часто подбираются с использованием наименьшего подходят квадраты.

В линейной регрессии также есть четыре основных предположения:

Нормальное распределение ошибок
Независимость в предикторах
Средние остатки должны быть равны нулю с постоянной дисперсией
Нет корреляции между признаками

Так как же нам отличить регрессию случайного леса от линейной регрессии независимо от постановки задачи?

Разница между регрессией случайного леса и стандартными методами регрессии для многих приложений заключается в следующем:

Регрессия случайного леса может аппроксимировать сложные нелинейные формы без предварительной спецификации. Линейная регрессия работает лучше, когда базовая функция является линейной и имеет много непрерывных предикторов.
Регрессия случайного леса позволяет использовать произвольное количество предикторов (возможно больше предикторов, чем точек данных)
Регрессия случайного леса также может улавливать сложные взаимодействия между прогнозами без предварительной спецификации.
Оба дадут некоторое подобие «особенности важности». Однако важность функции линейной регрессии гораздо легче интерпретировать, чем случайный лес, учитывая значения коэффициента линейной регрессии, прикрепленные к каждому предиктору.

Теперь давайте посмотрим, как каждая модель применима к бронированиям Airbnb. Одна вещь, которую нам нужно сделать в ходе интервью, — это лучше понять контекст проблемы прогнозирования бронирований.

Для этого нам нужно понять, какие функции существуют в нашем наборе данных.

Мы можем предположить, что набор данных будет иметь такие функции, как:

особенности местоположения
Сезонность
количество спален и ванных комнат
отдельная комната, общая, весь дом и т. д..
Внешний спрос (конференции, фестивали и т. д.)

Можем ли мы экстраполировать эти функции в линейную модель, которая имеет смысл?

Наверное. Если бы нам нужно было измерить стоимость бронирований только в одном городе, мы, вероятно, смогли бы получить приличную линейную регрессию.

Возьмем, к примеру, Сиэтл: коэффициент для каждой спальни, ванной комнаты, времени месяца и т. д. можно было бы стандартизировать по всему городу, если бы у нас была хорошая переменная, учитывающая местоположение в городе.

Учитывая нюансы различных событий, влияющих на ценообразование, мы могли бы создавать настраиваемые эффекты взаимодействия между функциями, если, например, масштабный фестиваль внезапно увеличивает спрос на дома с тремя или четырьмя спальнями.

Однако, предположим, у нас есть тысячи объектов в нашем наборе данных, чтобы попытаться спрогнозировать цены на различные типы домов по всему миру. Если мы запустим регрессионную модель случайного леса, преимущества теперь заключаются в формировании сложных нелинейных комбинаций в модель из набора данных, который может содержать однокомнатные квартиры в Сиэтле и особняки в Хорватии.

Но если наш набор проблем возвращается к простому примеру одного почтового индекса Сиэтла, то наш набор функций резко сокращается из-за различий в географии и типе аренды, а обычная линейная регрессия имеет преимущества в том, что позволяет понять интерпретируемость модели. для количественной оценки факторов ценообразования.

Квартира с одной спальней и двумя ванными комнатами, вероятно, может удвоиться в цене по сравнению с одной спальней и одной ванной комнатой, учитывая количество гостей, которые она может вместить, но это взаимодействие может быть неверным в других частях мира с другими ценами спроса.

Вопрос интервью AirBnb Data Science

Похожие вопросы