Жизнь начинается, когда вы решаете проблемы. Как специалист по данным, я люблю решать бизнес-задачи.

Каждый день мы видим, что автомобильный рынок быстро растет, и это приводит нас к двери, где многие люди покупают и продают автомобили на рынке, поэтому, чтобы сделать этот процесс более плавным и с лучшим представлением о рынке, я предложение модели, которая будет использовать конкретную информацию, связанную с автомобилем, и предсказывать цену продажи. Это поможет получить лучший обзор при покупке и продаже автомобилей.

Прогнозирование описания:

Я предсказываю цену продажи автомобиля на основе различных характеристик автомобилей, включая текущую цену автомобилей. Я буду использовать множественную линейную регрессию для построения модели.

Описание данных:

Набор данных от Cardekho.com, этот набор данных содержит информацию об автомобилях, перечисленных на сайте cardekho.com.

Источник:

Сообщество Kaggle Data Science

Информация об атрибутах:

Наборы данных состоят из нескольких независимых переменных, включая:

  1. Car_Name : Этот столбец представляет название автомобиля.
  2. Год: в этой колонке указан год, когда был куплен автомобиль.
  3. Selling_Price : в этом столбце представлена ​​цена, по которой владелец хочет продать автомобиль.
  4. Present_Price: это текущая цена автомобиля.
  5. Kms_Driven : это расстояние, пройденное автомобилем в км.
  6. Fuel_Type: тип топлива автомобиля, т. е. дизель, бензин, сжатый природный газ.
  7. Seller_Type: определяет, является ли продавец дилером или физическим лицом.
  8. Трансмиссия: Определяет, является ли автомобиль механическим или автоматическим.
  9. Владелец: Определяет количество владельцев, которые ранее были у автомобиля.

Исследовательский анализ данных:

Здесь мы можем видеть, что:

  • Большинство автомобилей, которыми владеют люди, имеют бензиновый тип.
  • Люди покупают больше бензиновых автомобилей, чем дизельных и газовых.

  • Большинство продавцов - только дилеры.
  • Но мы видим, что индивидуальные продавцы появляются с помощью онлайн-рынка.

  • Большинство автомобилей принадлежит первому владельцу.
  • Подержанных машин меньше.

  • Большую часть года Настоящая цена Автомобиля с 1-м владельцем высока.

  • Когда автомобиль продается по цене, высокая цена продажи приходится на первых автовладельцев, а не на вторых и третьих.

  • Первые владельцы в среднем проехали меньше километров.
  • Покупать машину лучше у первого владельца.

  • Дилеры владеют/продают автомобили со средним пробегом 40 тыс. км, что немало.
  • тогда как физические лица, владеющие/продающие автомобили с пробегом 30 тыс. км, проехали всего на 10 000 меньше, чем дилеры.
  • Лучше покупать машину у Физического лица, если вы хотите меньше пробега автомобилей.

  • Автомобили с автоматической коробкой передач стоят дороже, чем автомобили с механической коробкой передач.

  • Дилеры продают автомобили по более высокой цене, как видно из вышеизложенного, у них есть автомобили с большим пробегом, в этом случае цена должна быть меньше.
  • Люди продают свои автомобили по более низкой цене, несмотря на то, что проехали меньше километров, чем показано выше.

Понимание переменных:

Давайте погрузимся, чтобы понять переменные и использовать матрицу корреляции, чтобы упростить процесс.

Матрица корреляции:

  • Цена продажи и Текущая цена имеют корреляцию 0,88.
  • Цена продажи сильно коррелирует с текущей ценой, поэтому мы можем использовать любую из переменных для нашего анализа, но не обе.

Отклонения:

Теперь давайте проверим, есть ли у нас выбросы в наших данных.

  • Kms_Driven показывает, что многие данные действуют как выбросы.
  • Но с помощью знания предметной области мы можем сказать, что автомобили могут проехать любые километры, поскольку они основаны на владельце и цене продажи этих автомобилей, которые корректируются соответствующим образом.

Поэтому вместо удаления значений выбросов мы хотели бы получить их журнал.

  • Мы успешно выровняли данные, и теперь они не ведут себя как выбросы.
  • Мы сохранили ценную информацию о пройденных километрах.

Проверка гипотезы:

Прежде чем перейти к части моделирования, мы проведем проверку гипотез.

Исследовательский вопрос:

В течение всего прошедшего года Cardekho.com находится на рынке, средняя цена продажи автомобилей оставалась на уровне 5,5 лакха. Cardekho.com утверждает, что цена не изменилась и это та же средняя цена продажи.

Население: все данные Cardekho.com до текущего года.

Теперь мы сформулируем нулевую и альтернативную гипотезы как;

Нулевая гипотеза. Средняя цена продажи автомобиля составляет 5,5 лакха.

H0 : myu(u) = 5,5

Альтернативная гипотеза: средняя цена продажи автомобилей упала ниже и составляет 4,6.

H1: myu(u) != 5,5. # != означает не равно.

Данные: у нас есть образцы данных с Cardekho.com за разные годы, и мы будем проводить проверку гипотез на их основе.

поэтому мы выполним t-тест (два хвоста), поскольку у нас есть стандартное отклонение выборки, и примем уровень достоверности 95%, что дает alpa = 0,05.

P-значение (0,05) > (0,0449), поэтому мы можем сделать вывод, что у нас достаточно доказательств, чтобы отклонить нулевую гипотезу (H0) и принять альтернативную гипотезу (H1).

Это означает, что средняя цена продажи автомобиля не 5,5.

Здесь ошибка 1-го рода равна 0,05, которую мы сохранили как можно меньше, потому что ошибка 1-го рода критична для нас в гипотезе.

Исследовательский вопрос:

Cardekho.com Занимаясь продажей автомобилей, говорит, что большинство автомобилей, которые мы покупаем, продаются по какой-то высокой цене, поэтому средняя общая цена текущей цены и продажной цены в конце концов становится одинаковой.

Население: все данные Cardekho.com на данный момент.

Теперь мы сформулируем нулевую и альтернативную гипотезы.

Нулевая гипотеза. Средняя продажная и текущая цена совпадают.

H0 : myu(u1) = myu(u2)

Альтернативная гипотеза. Средняя продажная и текущая цена не совпадают.

H1 : myu(u1) != myu(u2) # != означает не равно.

Данные: у нас есть выборочные данные о цене продажи и текущей цене за разные годы существования cardekho.com.

поэтому здесь мы выполним Annova: один фактор, поскольку здесь нам нужно увидеть разницу между двумя средствами разных функций.

Руки вниз, чтобы преуспеть за один клик, в этом случае, поэтому мы проведем этот анализ там и поймем результат нашего анализа.

Выше мы видим, что у нас есть:

F(26,35) › F крит(3,85)

У нас есть достаточно доказательств, чтобы отвергнуть нулевую гипотезу (H0) и принять альтернативную гипотезу (H1).

Таким образом, можно сделать вывод, что средняя цена продажи и средняя настоящая цена автомобилей не совпадают, они разные.

Регрессия:

Регрессионный анализ состоит из набора методов машинного обучения, которые позволяют нам прогнозировать переменную непрерывного результата (y) на основе значения одной или нескольких переменных-предикторов (x). Вкратце, целью регрессионной модели является построение математического уравнения, определяющего y как функцию переменных x.

Масштабирование функций:

Мы будем применять StandardScaler, так как StandardScaler предполагает, что ваши данные нормально распределены внутри каждой функции, и будет масштабировать их так, чтобы распределение теперь было сосредоточено вокруг 0 ​​со стандартным отклонением 1.

Теперь сделаем регрессию с помощью Ols из библиотеки stats model:

Здесь мы можем видеть, что:

  • Мы достигли R_squared 0,918, что очень хорошо.
  • Нам нужно взглянуть на Adjusted R_sqr и P-value, так как это поможет нам в дальнейшей настройке модели.

Теперь будем дополнительно настраивать модель:

Давайте удалим переменную Owner, поскольку она больше, чем наше p-значение, т.е. (0,05), действующее как незначительное. Мы также проверили, что наш Adj R_sqr не должен сбрасываться.

Результат:

Наконец, у нас есть наиболее подходящая модель со всеми значимыми независимыми значениями и хорошей оценкой Adj R2 91,5 %.

Вывод:

Мы использовали регрессионный анализ и спрогнозировали цену продажи автомобиля на основе различных характеристик автомобилей, включая текущую цену автомобилей.