Всем привет! Если вы хотите получить представление о рынке жилья в Бостоне, этот пост для вас!

В этой статье мы собираемся погрузиться в набор данных Boston AirBnb, чтобы ответить на следующие вопросы:

1. Какое проживание в семье принесло наибольшую прибыль? Это на самой дорогой улице и в районе?
2. В какое время года больше всего посетителей в Бостоне? Насколько растут цены?
3. Можно ли предсказать цены с помощью модели машинного обучения?

Набор данных охватывает списки AirBnb с сентября 2016 года по сентябрь 2017 года и доступен здесь,

Чтобы ответить на эти вопросы, мы применим статистику и концепции машинного обучения. Код этой работы доступен на GitHub.

Давайте двигаться вперед и приобретать эти идеи!

Какое проживание в семье принесло наибольшую прибыль? Это на самой дорогой улице и в районе?

На рисунке 1 мы видим, что проживание в семье, которое заработало больше всего, показало себя очень хорошо. За год она смогла заработать более 1 миллиона долларов. Такое проживание в семье приносило доход, который более чем в два раза превышал доход второго места.

На рис. 2 показано описание самого высокооплачиваемого места. Мы видим, что проживание в семье обеспечивает потрясающие впечатления для фанатов INDY Racing Series. Он также предоставляет множество удобств для гостей. Цена довольно высокая, 3000 долларов США. Что можно сказать о его улице и районе?

Лучшее проживание в семье расположено на улице Конгресса в районе Южного Бостона.

Рисунки 3 и 4 говорят нам о том, что наше проживание в семье входит в десятку самых дорогих улиц и районов. Конгресс-стрит - третья самая дорогая улица. Южный Бостон занимает 8-е место среди самых дорогих районов.

Эта информация помогает нам понять, почему цена проживания в семье такая высокая.

Какое самое загруженное время года для посещения Бостона? На сколько подскочат цены?

Вы бы предпочли посетить Бостон в тихий сезон или в многолюдный сезон? Рисунки 5 и 6 могут помочь вам с ответом.

На рисунках 5 и 6 показано как количество бронирований, так и цены, пик которых приходится на сентябрь и октябрь осенью.

Низкий сезон приходится на январь и февраль зимой. Может быть, в Бостоне становится слишком холодно для некоторых туристов в это время к-к-к.

В высокий сезон, по сравнению со среднегодовыми показателями, количество бронирований увеличивается на 34%, а цены увеличиваются на 18%.

По сравнению с низким сезоном бронирование увеличивается на 70%, а цены увеличиваются на 31%.

Можно ли предсказать цены с помощью модели машинного обучения?

Чтобы попытаться предсказать цены листинга, я сделал регрессор дерева решений.

Наша модель ценовой регрессии не достигла оптимальной производительности. Однако 50% полученных ошибок находятся ниже 30 долларов США, что составляет всего 21% стандартного отклонения цен. 75% ошибок находятся ниже 70 долларов США, что составляет 51% стандартного отклонения цены. Таким образом, мы все же добились достаточно хорошей модели.

На рис. 8 показаны значения признаков, извлеченные из регрессора дерева решений. Важность функций говорит нам, насколько важны переменные для решения модели. Мы можем заметить, что наиболее важными функциями являются:

1. Если Fenway является очищенным районом проживания в семье.
2. Если комнаты относятся к типу Home/Apt.
3. Наличие кошек. (На самом деле это довольно забавно.)
4. Количество ванных комнат в семье.
5. Доступность проживания в семье.

Есть несколько шагов, которые мы могли бы предпринять, чтобы попытаться улучшить производительность модели. Они есть:

1. Увеличение объема данных. К сожалению, у нас есть только небольшой объем доступных нам данных.
2. Выполнение более глубокого проектирования признаков.
3. Тестирование других алгоритмов регрессии.
4. Удаление выбросов с помощью методов обнаружения выбросов. Это может помочь модели добиться лучшего обобщения.

В заключение мы видим, что можно добиться разумных прогнозов цен на основе данных о домах. Кроме того, можно даже улучшить модель, приняв предложенные меры.

Выводы

Мы смогли ответить на все наши вопросы. В этой работе мы получили некоторые полезные сведения о рынке жилья в Бостоне.

Сначала мы смогли найти наиболее прибыльное проживание в семье и смогли понять некоторые причины его успеха. Самое выгодное проживание в семье обеспечивает хорошие удобства и отличный опыт для любителей гонок. Эти приятные вещи сочетаются с высокой ценой, что может быть объяснено районом и улицей, на которой расположено проживание в семье, которые являются одними из самых дорогих районов Бостона.

Затем мы обнаружили тенденции бронирования и цен в Бостоне. Данные говорят, что высокий сезон приходится на осень, а низкий сезон — на зиму. В высокий сезон цены и резервы значительно увеличиваются, а в низкий сезон, наоборот, город становится менее многолюдным и дешевеет.

Наконец, в конце концов, мы смогли создать хорошую модель для прогнозирования листинговых цен. Модель не оптимальна, но имеет разумную производительность и много возможностей для улучшения. Мы даем некоторые предложения по улучшению такой модели.

Есть ли еще вопросы, на которые вы хотели бы ответить о рынке жилья в Бостоне? Хотели бы вы применить те же концепции к другому городу? Если это так, я приглашаю вас заняться наукой о данных и опубликовать свои выводы! Дайте мне знать, если вам нужна помощь!