Жизнь начинается, когда вы решаете проблемы. Как специалист по данным, я люблю решать бизнес-задачи.
Каждый день мы видим, что автомобильный рынок быстро растет, и это приводит нас к двери, где многие люди покупают и продают автомобили на рынке, поэтому, чтобы сделать этот процесс более плавным и с лучшим представлением о рынке, я предложение модели, которая будет использовать конкретную информацию, связанную с автомобилем, и предсказывать цену продажи. Это поможет получить лучший обзор при покупке и продаже автомобилей.
Прогнозирование описания:
Я предсказываю цену продажи автомобиля на основе различных характеристик автомобилей, включая текущую цену автомобилей. Я буду использовать множественную линейную регрессию для построения модели.
Описание данных:
Набор данных от Cardekho.com, этот набор данных содержит информацию об автомобилях, перечисленных на сайте cardekho.com.
Источник:
Сообщество Kaggle Data Science
Информация об атрибутах:
Наборы данных состоят из нескольких независимых переменных, включая:
- Car_Name : Этот столбец представляет название автомобиля.
- Год: в этой колонке указан год, когда был куплен автомобиль.
- Selling_Price : в этом столбце представлена цена, по которой владелец хочет продать автомобиль.
- Present_Price: это текущая цена автомобиля.
- Kms_Driven : это расстояние, пройденное автомобилем в км.
- Fuel_Type: тип топлива автомобиля, т. е. дизель, бензин, сжатый природный газ.
- Seller_Type: определяет, является ли продавец дилером или физическим лицом.
- Трансмиссия: Определяет, является ли автомобиль механическим или автоматическим.
- Владелец: Определяет количество владельцев, которые ранее были у автомобиля.
Исследовательский анализ данных:
Здесь мы можем видеть, что:
- Большинство автомобилей, которыми владеют люди, имеют бензиновый тип.
- Люди покупают больше бензиновых автомобилей, чем дизельных и газовых.
- Большинство продавцов - только дилеры.
- Но мы видим, что индивидуальные продавцы появляются с помощью онлайн-рынка.
- Большинство автомобилей принадлежит первому владельцу.
- Подержанных машин меньше.
- Большую часть года Настоящая цена Автомобиля с 1-м владельцем высока.
- Когда автомобиль продается по цене, высокая цена продажи приходится на первых автовладельцев, а не на вторых и третьих.
- Первые владельцы в среднем проехали меньше километров.
- Покупать машину лучше у первого владельца.
- Дилеры владеют/продают автомобили со средним пробегом 40 тыс. км, что немало.
- тогда как физические лица, владеющие/продающие автомобили с пробегом 30 тыс. км, проехали всего на 10 000 меньше, чем дилеры.
- Лучше покупать машину у Физического лица, если вы хотите меньше пробега автомобилей.
- Автомобили с автоматической коробкой передач стоят дороже, чем автомобили с механической коробкой передач.
- Дилеры продают автомобили по более высокой цене, как видно из вышеизложенного, у них есть автомобили с большим пробегом, в этом случае цена должна быть меньше.
- Люди продают свои автомобили по более низкой цене, несмотря на то, что проехали меньше километров, чем показано выше.
Понимание переменных:
Давайте погрузимся, чтобы понять переменные и использовать матрицу корреляции, чтобы упростить процесс.
Матрица корреляции:
- Цена продажи и Текущая цена имеют корреляцию 0,88.
- Цена продажи сильно коррелирует с текущей ценой, поэтому мы можем использовать любую из переменных для нашего анализа, но не обе.
Отклонения:
Теперь давайте проверим, есть ли у нас выбросы в наших данных.
- Kms_Driven показывает, что многие данные действуют как выбросы.
- Но с помощью знания предметной области мы можем сказать, что автомобили могут проехать любые километры, поскольку они основаны на владельце и цене продажи этих автомобилей, которые корректируются соответствующим образом.
Поэтому вместо удаления значений выбросов мы хотели бы получить их журнал.
- Мы успешно выровняли данные, и теперь они не ведут себя как выбросы.
- Мы сохранили ценную информацию о пройденных километрах.
Проверка гипотезы:
Прежде чем перейти к части моделирования, мы проведем проверку гипотез.
Исследовательский вопрос:
В течение всего прошедшего года Cardekho.com находится на рынке, средняя цена продажи автомобилей оставалась на уровне 5,5 лакха. Cardekho.com утверждает, что цена не изменилась и это та же средняя цена продажи.
Население: все данные Cardekho.com до текущего года.
Теперь мы сформулируем нулевую и альтернативную гипотезы как;
Нулевая гипотеза. Средняя цена продажи автомобиля составляет 5,5 лакха.
H0 : myu(u) = 5,5
Альтернативная гипотеза: средняя цена продажи автомобилей упала ниже и составляет 4,6.
H1: myu(u) != 5,5. # != означает не равно.
Данные: у нас есть образцы данных с Cardekho.com за разные годы, и мы будем проводить проверку гипотез на их основе.
поэтому мы выполним t-тест (два хвоста), поскольку у нас есть стандартное отклонение выборки, и примем уровень достоверности 95%, что дает alpa = 0,05.
P-значение (0,05) > (0,0449), поэтому мы можем сделать вывод, что у нас достаточно доказательств, чтобы отклонить нулевую гипотезу (H0) и принять альтернативную гипотезу (H1).
Это означает, что средняя цена продажи автомобиля не 5,5.
Здесь ошибка 1-го рода равна 0,05, которую мы сохранили как можно меньше, потому что ошибка 1-го рода критична для нас в гипотезе.
Исследовательский вопрос:
Cardekho.com Занимаясь продажей автомобилей, говорит, что большинство автомобилей, которые мы покупаем, продаются по какой-то высокой цене, поэтому средняя общая цена текущей цены и продажной цены в конце концов становится одинаковой.
Население: все данные Cardekho.com на данный момент.
Теперь мы сформулируем нулевую и альтернативную гипотезы.
Нулевая гипотеза. Средняя продажная и текущая цена совпадают.
H0 : myu(u1) = myu(u2)
Альтернативная гипотеза. Средняя продажная и текущая цена не совпадают.
H1 : myu(u1) != myu(u2) # != означает не равно.
Данные: у нас есть выборочные данные о цене продажи и текущей цене за разные годы существования cardekho.com.
поэтому здесь мы выполним Annova: один фактор, поскольку здесь нам нужно увидеть разницу между двумя средствами разных функций.
Руки вниз, чтобы преуспеть за один клик, в этом случае, поэтому мы проведем этот анализ там и поймем результат нашего анализа.
Выше мы видим, что у нас есть:
F(26,35) › F крит(3,85)
У нас есть достаточно доказательств, чтобы отвергнуть нулевую гипотезу (H0) и принять альтернативную гипотезу (H1).
Таким образом, можно сделать вывод, что средняя цена продажи и средняя настоящая цена автомобилей не совпадают, они разные.
Регрессия:
Регрессионный анализ состоит из набора методов машинного обучения, которые позволяют нам прогнозировать переменную непрерывного результата (y) на основе значения одной или нескольких переменных-предикторов (x). Вкратце, целью регрессионной модели является построение математического уравнения, определяющего y как функцию переменных x.
Масштабирование функций:
Мы будем применять StandardScaler, так как StandardScaler предполагает, что ваши данные нормально распределены внутри каждой функции, и будет масштабировать их так, чтобы распределение теперь было сосредоточено вокруг 0 со стандартным отклонением 1.
Теперь сделаем регрессию с помощью Ols из библиотеки stats model:
Здесь мы можем видеть, что:
- Мы достигли R_squared 0,918, что очень хорошо.
- Нам нужно взглянуть на Adjusted R_sqr и P-value, так как это поможет нам в дальнейшей настройке модели.
Теперь будем дополнительно настраивать модель:
Давайте удалим переменную Owner, поскольку она больше, чем наше p-значение, т.е. (0,05), действующее как незначительное. Мы также проверили, что наш Adj R_sqr не должен сбрасываться.
Результат:
Наконец, у нас есть наиболее подходящая модель со всеми значимыми независимыми значениями и хорошей оценкой Adj R2 91,5 %.
Вывод:
Мы использовали регрессионный анализ и спрогнозировали цену продажи автомобиля на основе различных характеристик автомобилей, включая текущую цену автомобилей.