Работа с отсутствующими значениями

В предварительной обработке данных ключевым шагом является обработка отсутствующих данных, поскольку модели машинного обучения не будут принимать значение NaN в качестве входных данных. Существует бесчисленное множество способов заполнить эти значения NaN, но чтобы выбрать лучший способ, нам нужно понять значимость пропущенных значений.

Один из них — удалить все отсутствующие значения из набора данных, но прежде чем продолжить, проверьте общий процент значений NaN, присутствующих в наборе данных. Если он меньше 1%, мы можем отбросить все пропущенные значения, в противном случае нам нужно вменить данные, выбрав другие методы, такие как измерения центральной тенденции, KNN Imputer и т. д.

Когда у нас есть числа в функции, мы выбираем среднее или среднее. Среднее значение — это среднее значение, и мы можем подсчитать его, просуммировав все значения в строке, а затем разделив результат на их количество. Медиана также показывает нам среднее число, но это значение точно в середине строки.

Я поклялся, что большинство из нас выберет среднее значение для вменения, а не среду, если у нас также будет асимметричное распределение в наборе данных. Но средний лучше среднего.

Почему средний лучше среднего?

Среднее использует все значения в наборе данных, чтобы получить окончательные средние значения, но на среду не будут влиять какие-либо аномальные/экстремальные значения в наборе данных.

Выбросы Невежество

Выбросы — это аномальные значения, которые отличаются от остальных. В какой-то момент эти выбросы также могут быть чувствительными. Без полного изучения набора данных мы не можем игнорировать выбросы.

Например:

  • Прогноз значения глубины на основе наблюдаемых осадков имеет большое значение для выбросов.
  • Прогноз цены дома не имеет значения выбросов.

Утечка данных

Что такое проблема утечки данных в моделях ML?

Утечка данных происходит, когда данные, которые мы используем для обучения модели, имеют информацию, которую модель пытается предсказать. Это приводит к ненадежным и плохим результатам прогнозирования после развертывания модели.

Эта проблема может возникнуть, вероятно, из-за методов стандартизации или нормализации данных. Потому что большинство из нас будет использовать эти методы, прежде чем разделить данные для обучения и тестирования. Это повлияет на жизненно важную роль тестового набора, который играет на этапе прогнозирования.

Выберите подходящие модели

Выбор моделей преимущественно основан на размере и сложности набора данных, потому что, если мы имеем дело со сложной проблемой, нам нужно использовать некоторые высокоэффективные модели, такие как SVN, KNN, Random Forest и так далее.

Я уверен, что в большинстве случаев этап EDA поможет нам выбрать модель. В визуализации, если данные линейно разделимы, мы можем использовать линейную регрессию. Если мы понятия не имеем о данных, SVM и KNN будут полезны.

В реальном времени я чувствовал, что нежелательный переход к некоторым сложным моделям может иметь некоторые проблемы с объяснением для людей, ориентированных на бизнес. Например, линейную регрессию будет легче объяснить, чем алгоритмы нейронных сетей.

Проверка с соответствующими показателями

Метрики — это количественная мера предикторов и фактических значений модели. Эти показатели различны для всех типов задач машинного обучения. Если проблема находится на стороне регрессии, ключевыми показателями являются точность (оценка R2), MAE (средняя абсолютная ошибка) и RMSE (среднеквадратичная ошибка). Если это относится к классификации, ключевыми показателями являются Precision, Recall, F1score и матрица путаницы.

На начальном этапе у меня тоже была некоторая путаница в выборе метрики преимущественно для сетей глубокого обучения, которые подвергаются регрессии. Итак, при разработке убедитесь, что вы ответили на вопрос: с каким типом проблемы вы имеете дело, с регрессией или классификацией? Это база для всех, кто выбирает модель и метрики. Это довольно маленький блог, но я надеюсь, что он может помочь вам, ребята, где-нибудь.

Мне бы хотелось услышать отзыв . Спасибо за ваше время!