Анализ объявлений Boston Airbnb в поисках хорошего бронирования.

Введение

Эта статья предлагает визуализацию данных и прогностические решения для трех вопросов, которые волнуют людей, планирующих свое пребывание в Бостоне:

  • Каково жить в районе Бостона?
  • Как гости в целом оценивают Airbnb в Бостоне (хорошо, нейтрально или плохо)?
  • Какие факторы влияют на цену?

Используя хорошо известную модель процесса под названием CRISP-DM (процесс CRoss Iindustry Sстандартный процесс для Ddata Minning), он обеспечивает основу для анализа данных в наборе данных Boston Airbnb с открытым исходным кодом.

Ответы на первый и третий вопросы даются с использованием набора данных о списках, который состоит из 3575 объявлений с 95 функциями в 25 районах Бостона. Второй вопрос решается путем анализа набора отзывов, который состоит из 68 275 комментариев, оставленных гостями.

Понимание данных

Общая информация

Каждая строка представляет один список. Существует 95 атрибутов (на скриншоте видны первые 10): id, listings_url, scrape_id, last_scraped, name, summary, space, description, experience_offered и neighborhood_overview. .

Полезно получить краткое описание данных, в частности общее количество строк, тип каждого атрибута и количество ненулевых значений.

Категориальные атрибуты

Категориальные признаки в этом наборе данных показаны с долей нулевых значений на рис. 4. Поскольку целевая переменная price имеет неверный тип данных объекта, я конвертирую ее в число.

Нулевые значения близки к нулю более чем в половине категориальных переменных, за исключением последних пяти, где ненулевые значения составляют менее 45%.

Числовые атрибуты

Категориальные признаки в этом наборе данных показаны с долей нулевых значений, как показано ниже:

На рисунке 5 видно, что процент пустых значений в каждом числовом столбце невелик, за исключением столбца square_feet, где более 98 % точек данных являются нулевыми. Столбцы neighbourhood_group_cleansed, license,jurice_names и has_availability имеют все 3585 нулевых значений.

Чтобы быстро понять тип данных, я построю гистограмму для каждого числового атрибута. Гистограмма показывает количество экземпляров (по вертикальной оси), которые имеют заданный диапазон значений (по горизонтальной оси).

Обратите внимание на несколько вещей в этих гистограммах:

  • Более 3000 объявлений имеют цену ниже 500 долларов США, а это означает, что объявления с более чем 500 долларов США за ночь являются исключениями.
  • Эти атрибуты имеют очень разные масштабы. Мы разберемся с этим позже при масштабировании функций.
  • Наконец, многие гистограммы имеют тяжелый хвост: они простираются гораздо дальше вправо от медианы, чем влево. Это может затруднить обнаружение закономерностей. Важно, чтобы оценщики машинного обучения выглядели как стандартные данные с нормальным распределением.

После работы с нулевыми значениями, аналитически нерелевантными переменными и выбросами я собираю подходящий набор данных и начинаю копаться в трех аналитических вопросах.

Каково жить в районе Бостона?

Если вам небезразлично разнообразие и варианты, вот список из 25 районов Бостона, отсортированный в порядке убывания по количеству предложений. В первую пятерку районов с наибольшим количеством Airbnb входят Ямайка-Плейн, Саут-Энд, Бэк-Бэй, Фенуэй и Дорчестер.

Говоря о средних ценах, районы с меньшим количеством объявлений, такие как Бэй-Виллидж, Кожаный район и Чайна-таун, как правило, в среднем взимают более высокую плату, как показано ниже на рисунке 8. Быстрый поиск покажет вам, что в окрестностях центра города В Бостоне эти дорогие районы втиснуты друг в друга и создают богатую культурой и оживленную часть региона.

Поскольку имеется географическая информация (широта и долгота), рекомендуется создать диаграмму рассеивания всех списков для визуализации данных.

В целом я считаю, что Airbnb более сконцентрированы на долготе от -71,1 запада до -71,05 востока и на широте от 42,34 юга до 42,36 севера. Цены также очень сильно связаны с местоположением (например, цены повышаются на объявления рядом с океаном) и плотностью размещения.

С другой стороны, чтобы получить более качественное представление о районах Бостона, я объединим все описания в один большой текст и создам большое жирное облако, чтобы увидеть, какие характеристики наиболее распространены в районах Бостона.

После удаления некоторых стоп-слов, таких как «Airbnb», «Бостон» и названий районов, у меня есть облако, заполненное множеством слов разного размера, которые представляют частоту или важность каждого слова, такого как ресторан. , парк, магазин, бар, прогулка, минута, тихий, близкий, разнообразный и исторический. Эти ключевые слова создают впечатление, что Бостон — густонаселенный, удобный и удобный для пешеходов, но в то же время тихий, исторически важный город с культурным разнообразием.

Как гости в целом оценивают Boston Airbnbs?

Набор данных отзывов не требует больших усилий по очистке, просто удаляется небольшое количество пустых комментариев, и он готов к анализу.

Отзывы важны для всего сообщества Airbnb, они помогают таким гостям, как вы, разумно выбирать планы поездок. Я использую TextBlob, удивительно простую библиотеку для обработки естественного языка, чтобы применить анализ тональности для столбца comments и собрать полезную информацию о контексте.

Анализ тональности — это процесс анализа и классификации текстовых данных. Это может помочь нам расшифровать настроение и эмоции широкой публики и найти важную информацию.

TextBlob возвращает полярность предложения, которая находится между [-1,1], -1 указывает на отрицательное настроение, а 1 указывает на положительное. Он также предоставляет семантические метки, такие как «хороший», «плохой» и «нейтральный», которые позволяют проводить детальный анализ. Для этой задачи настроение помечается как «хорошее», если его полярность выше 0, «нейтральное», если равно 0, и «плохое», если ниже 0.

В целом бостонские Airbnb получают много хороших отзывов: 93,36% комментариев помечены как «хорошие», что превышает число «плохих» отзывов (1,28%).

Я предлагаю ознакомиться с жалобами, которые часто возникают у людей, понять общие проблемы, чтобы иметь лучший план управления рисками для вашего пребывания.

На первый взгляд, жалобы на чистоту (точнее, ванной и кухни) — самые распространенные. Пятна на простынях, пыльные окна или подметенные полы могут заставить гостей чувствовать себя неловко или даже немного противно. Многие гости также жалуются на проблемы с доступом и парковкой.

Какие факторы влияют на цену Boston Airbnbs?

Наконец, какие важные характеристики влияют на цену? В этой части я использую учебные библиотеки из научного набора для предварительной обработки категориальных атрибутов (фиктивных) и числовых атрибутов (вменение и стандартизация), чтобы создать карту интенсивности корреляции 28 признаков для поиска их аналитически значимых взаимосвязей. На этом этапе также подготавливаются данные для последующего обучения моделей прогнозирования.

Некоторые проницательные моменты:

  • Вывод о том, что широта и долгота положительно коррелируют с ценой, вновь подтвердился.
  • Здравый смысл подсказывает, что чем больше, тем дороже: предложения и гости_включены меняются вместе с ценой.
  • Наличие положительной связи Canculated_host_listings_counts, available_365 и cancellation_policy_strict может означать, что более опытные хосты с большими возможностями также более требовательны к отмене.
  • Из всех оценок по отзывам review_score_location и review_score_cleanliness более положительно коррелируют с ценой.

Применяемые алгоритмы машинного обучения для предсказания цены

В приведенном выше разделе была выполнена необходимая предварительная обработка данных, чтобы мы могли создать прогнозную модель. Далее нам нужно выбрать функции, которые положительно коррелируют с ценой с оценкой выше порогового значения 0 для обучения моделей машинного обучения. Затем разделите данные на вектор отклика, который в данном случае является средней ценой Boston Airbnbs, и объяснительную матрицу всех оставшихся 23 характеристик. Необходимо разделить набор данных на обучающие и тестовые наборы и обучить алгоритмы с обучающим набором, прежде чем прогнозировать ответ тестового набора и оценивать.

Я использую 3519 наблюдений и 17 переменных для построения трех моделей: линейной регрессии, дерева решений и случайного леса. В качестве показателей оценки я использую RMSE и R-квадрат. RMSE представляет собой квадратный корень второго момента выборки из различий между прогнозируемыми и наблюдаемыми значениями или среднеквадратичное значение этих различий. Как правило, чем меньше значение, тем лучше. R-квадрат – это статистическая мера соответствия, показывающая, насколько вариация зависимой переменной (в данном случае переменной цена) объясняется независимыми переменными. Если R2 модели составляет 0,5, то примерно половину наблюдаемых изменений можно объяснить входными данными модели.

Оценка R-квадрата 0,61 указывает на то, что модель случайного леса лучше всего объясняет изменчивость целевой переменной. Модель также имеет наименьшую абсолютную разницу между прогнозом и фактическим наблюдением из-за средней абсолютной ошибки 39,7, что означает более низкие ошибки прогноза. По-видимому, модель Random Forest лучше, поскольку ее прогнозируемая средняя цена наиболее близка к фактической средней цене тестового набора (163,87642 доллара США).

На рисунке 20 в порядке убывания показаны 16 функций с наивысшей важностью. Мы можем сделать вывод, что эти 16 функций являются наиболее влиятельными переменными в модели прогнозирования цен случайного леса.

По мере увеличения переменных accommodations, широта и долгота цена переменной ответа, несомненно, будет расти. Интересно, что guests_included и cancellation_policy_super_strict_30 меньше влияют на модель случайного леса.

Заключение

Завершая анализ, давайте рассмотрим основные идеи и предложения, полученные в ходе этого исследовательского поиска:

1. Каково жить в районе Бостона?

Топ-5 районов, где у вас может быть столько вариантов, сколько вы можете себе представить, — это Ямайка-Плейн, Саут-Энд, Бэк-Бэй, Фенуэй и Дорчестер. С географической точки зрения вы хотели бы найти долготу между западной -71,1 и восточной -71,05, широту между южной 42,34 и северной 42,36. Однако, если вы чувствуете себя более экстравагантно, самые дорогие списки находятся в Бэй-Виллидж, Кожаном районе, набережной Южного Бостона, центре города и Чайна-тауне.

2. Как гости в целом оценивают Boston Airbnbs?

Это отличный знак, что большинство гостей оставляют положительные отзывы, в основном из-за хорошего опыта общения с хозяевами. Только небольшая часть неблагоприятных мнений относительно чистоты, пространства и доступа.

3. Какие факторы влияют на цену Boston Airbnbs?

Если вы заботитесь о цене, вы можете выбрать отдельную или общую комнату с, возможно, немного менее удобной кроватью. В противном случае места, окружающие Даунтаун и у океана, как правило, берут больше за более высокое качество жизни.

Если вы больше путешествуете в одиночку, не забудьте проверить, разрешены ли гости и сколько стоит.

Вы также должны искать корреляцию между ценой и тем, насколько опытен хозяин, основываясь на количестве его объявлений и рейтингах сообщества.

Надеюсь, вам понравится! Спасибо за прочтение!

Репозиторий Github этого проекта с полным кодом доступен здесь.

Использованная литература -

  1. https://github.com/amueller/word_cloud
  2. https://github.com/sloria/TextBlob/blob/dev/textblob/