Использование гребневой регрессии для прогнозов.

Морские ушки — это морепродукты, обитающие в холодных водах Новой Зеландии, Австралии, Южной Африки, Японии и на западном побережье Северной Америки. У него чрезвычайно богатое, ароматное и высоко ценимое мясо, которое считается кулинарным деликатесом.

Цели и задачи

В этом проекте мы попытаемся предсказать возраст морского ушка на основе его физических размеров и пола с помощью хребтовой регрессии.

Поток Процесс

  • Источник данных: набор данных из этого проекта загружается из Data Science Dojo.
  • Подготовка данных и EDA. Здесь я очистил набор данных, проверил наличие выбросов и выполнил исследовательский анализ данных, чтобы найти информацию, которую можно извлечь из набора данных.
  • Обучение модели. Здесь я обучил очищенные данные, используя модель гребневой регрессии.
  • Оценка и проверка модели. Эффективность модели измерялась с использованием средней абсолютной ошибки в качестве показателя.
  • Развертывание модели: полный исходный код загружен на GitHub.

Подготовка данных и EDA

В наборе данных есть 9 признаков и 4176 наблюдений.

Следующая блочная диаграмма показывает, что в количестве колец есть выбросы. Это также подтверждается прилагаемой гистограммой.

Выбросы в количестве колец необходимы для этого проекта, потому что у взрослых морских ушек может быть до 30 колец, а у младенцев есть как минимум 1 кольцо. выбросы

Следующая тепловая карта показывает, что в наборе данных есть сильно коррелированные объекты. Столбцы длины и диаметра удалены, чтобы уменьшить количество коррелирующих функций.

Следующая столбчатая диаграмма показывает, что набор данных содержит приблизительно равномерное распределение самцов, самок и детенышей морских ушек. Это видно по длине стержней (длины почти равны)

Построение модели

Модель гребневой регрессии обучалась с использованием следующих функций:

  • секс
  • высота,
  • весь_вес
  • shucked_weight
  • viscera_weight
  • shell_weight

Хотя целевым ярлыком является столбец кольца

При оценке показателей:

  • базовый уровень имеет среднюю абсолютную ошибку 2,45.
  • Обучающая выборка имеет среднюю абсолютную ошибку 1,65.
  • Набор тестов имеет среднюю абсолютную ошибку 1,52.

Следующая интерактивная панель инструментов использовалась для создания прогнозов на основе функций.

Выводы

Возраст самца и самки морского ушка примерно одинаков, если предположить, что следующие признаки одинаковы:

  • Высота
  • Весь вес
  • Сброшенный вес
  • Вес внутренностей
  • Вес корпуса

Наконец, возраст детеныша всегда ниже, чем у самцов и самок морских ушек.

Ссылка на блокнот: https://github.com/GentRoyal/abalone/blob/main/abalone.ipynb