Контракт с моей нынешней квартирой почти истек, и я ищу новое место, чтобы устраивать потрясающие званые обеды. Сначала я подумал, как нормальный человек, проверить места в Интернете и посетить агента по недвижимости, чтобы показать мне места. Но это было бы слишком скучно, сказал я себе, я специалист по данным, поэтому мне лучше знать.

Цель

Наша цель — найти самый дешевый дом в Токиов кратчайшие сроки, так как мне нужно переехать к концу марта 2022 года! Чтобы я не стал бездомным, мы используем одну из самых простых моделей машинного обучения: регуляризованную линейную регрессию (гребенчатую регрессию). Мы используем регуляризацию, потому что некоторые переменные должны быть закодированы сразу, и мы не хотим, чтобы коэффициенты взрывались.

Еще одна причина, по которой мы используем линейную регрессию, заключается в том, что мы хотим построить относительно объяснимую модель, чтобы понять факторы, влияющие на цены на жилье. (Прости, многослойный персептрон, ты будешь моим фаворитом несмотря ни на что)

Метод

Мы запустим линейную регрессию, чтобы предсказать ежемесячную арендную плату за каждый дом на основе набора независимых переменных. Дом с наибольшей положительной ошибкой (дом с самым завышенным прогнозом) будет самым недооцененным домом, поскольку наша модель дает большой прогноз, но фактическая цена низка. Этот дом будет легким делом, и, может быть, мой следующий дом?

Получение данных

Я написал код и собрал 217 389 домов с нескольких сайтов недвижимости в Токио. Исходные данные были настолько беспорядочными, что я избавлю вас от этапов обработки данных. Наконец, данные для каждого дома включают ниже:

id: уникальный идентификатор каждого дома, присвоенный при предварительной обработке
ярлык: показывает тип дома: отдельный дом, многоквартирный дом и т. д.
local: показывает местоположение дома: Города (23 района) и пригороды Токио
stats_1/2/3_station/distance: показывает ближайший (или 2-й, 3-й ближайший ) станция до дома и расстояние пешком до станции (минуты)
возраст: возраст здания
количество этажей: всего # этажей здания дом принадлежит
new_arrival: указан ли дом недавно на сайте
этаж: этаж дома
аренда: Ежемесячная арендная плата за дом
admin: Ежемесячная административная плата (管理費)
депозит: вы знаете, что это значит< br /> чаевые: единовременная плата, которую вы должны заплатить владельцу дома, чтобы показать, что вы благодарны за переезд в их дом (не имеет смысла, верно?) (礼金)
layout: планировка дома. Думайте об этом как о 2 спальнях, 3 спальнях и т. д.
площадь: квадратный метр площади дома.

Моделирование

В нашей модели зависимой переменной будет (аренда + администрация), потому что это то, что вы платите ежемесячно. Нашими независимыми переменными будут age, floor, no_of_floor, area и local (Местность: город в районе Токио). Локация будет закодирована горячим способом.

Результаты - 1: В целом

Мы смотрим на фактические и прогнозируемые цены на жилье:

R2 модели составляет около 84%, что неплохо, учитывая, что мы смогли реализовать эту модель за 5 минут. Вы можете видеть, что прогнозы изгибаются по отношению к фактическим ценам. Я почти уверен, что нелинейные модели, такие как глубокое обучение, дадут нам очень высокий R2 (с возвращением многослойного персептрона!)

Результаты - 2: Факторы роста цен на жилье

Теперь посмотрим, как каждая переменная влияет на прогнозы:

Как вы можете видеть выше, по мере старения здания арендная плата снижается примерно на 800 иен (7 долларов США) в год.

Интересным моментом является то, что общее количество этажей (~ 1200 иен, 11 долларов США), которое имеет здание, имеет большее значение по сравнению с фактическим этажом (1000 иен, 9 долларов США) дома. Поэтому лучше всего находить дома в невысоких зданиях, которые находятся ближе к верхнему этажу, если вы ищете высокий этаж. (Например, 10-й этаж 10-этажного дома должен быть дешевле 10-го этажа 20-этажного дома)

Наиболее важным результатом этой модели является то, что 1 м2 площади дома стоит в Токио около 2200 иен (20 долларов США). Не плохо ха!

В дополнение к вышеперечисленным переменным, мы предварительно закодировали местность (город) дома, подаваемую в модель. Глядя на коэффициенты, которые мы получаем для переменных с однократным кодированием, мы можем понять надбавку за жилье для каждого города в пределах Токио. Можете ли вы угадать самый дорогой город (区) в районе Токио? Ниже это:

Минато — самый дорогой город для жизни в районе Токио, так как вам нужно платить около 40 тысяч иен ​​(350 долларов США) в месяц только за то, чтобы жить в этом городе. За ним следуют Сибуя, Тиёда и Тюо. С другой стороны, в пределах 23 районов есть несколько городов, которые дешевле по сравнению с пригородами. Например. Адачи дешевле по сравнению с Кунитачи (не показано выше, так как его нет в 23 районах), в то время как Адачи находится в более центральном положении. Было бы разумно переехать в Адачи, если вам небезразличен доступ.

Результаты - 3: Самый недооцененный дом

Сейчас мы находимся на заключительном этапе, чтобы найти понимание, которое привело к запуску всего этого проекта: самый недооцененный дом. Для этого мы проверяем ошибки между фактическими и прогнозируемыми ценами. Дом с наибольшей относительной ошибкой:

Арендная плата за этот дом составляет 50 000 иен (430 долларов США), но согласно нашей модели она должна составлять 178 000 иен (1500 долларов США)… Это действительно выглядит очень дешево для отдельного дома в 3DK в Синагава с 65м2. Я думаю, что модель работает, но этот дом определенно не в моем стиле. Я, вероятно, поеду с домом на набережной с видом на реку Сумида, потому что, как вы знаете, гости на званых обедах не будут развлекаться сами по себе.

Заключение

Мне нравится использовать науку о данных для повседневных задач, таких как тема этой статьи: поиск самого дешевого дома для переезда. Наша простая модель очень хорошо спрогнозировала цены на жилье в Токио с 84% R2. Однако результаты моделирования всегда следует воспринимать с долей скептицизма, и то, как интерпретировать результаты, зависит от человека.

Поскольку собранных данных очень много, следующим шагом может стать построение графовой сверточной сети с использованием железнодорожных станций в качестве узлов для прогнозирования цен на жилье. Эта модель будет учитывать возможность подключения дома.

Еще один будущий проект — прогнозирование планировки (1K, 1LDK и т. д.) по изображениям дома с помощью компьютерного зрения. При этом можно значительно сократить трудозатраты.

Квест включен!



стать писателем