Работа с отсутствующими значениями
В предварительной обработке данных ключевым шагом является обработка отсутствующих данных, поскольку модели машинного обучения не будут принимать значение NaN в качестве входных данных. Существует бесчисленное множество способов заполнить эти значения NaN, но чтобы выбрать лучший способ, нам нужно понять значимость пропущенных значений.
Один из них — удалить все отсутствующие значения из набора данных, но прежде чем продолжить, проверьте общий процент значений NaN, присутствующих в наборе данных. Если он меньше 1%, мы можем отбросить все пропущенные значения, в противном случае нам нужно вменить данные, выбрав другие методы, такие как измерения центральной тенденции, KNN Imputer и т. д.
Когда у нас есть числа в функции, мы выбираем среднее или среднее. Среднее значение — это среднее значение, и мы можем подсчитать его, просуммировав все значения в строке, а затем разделив результат на их количество. Медиана также показывает нам среднее число, но это значение точно в середине строки.
Я поклялся, что большинство из нас выберет среднее значение для вменения, а не среду, если у нас также будет асимметричное распределение в наборе данных. Но средний лучше среднего.
Почему средний лучше среднего?
Среднее использует все значения в наборе данных, чтобы получить окончательные средние значения, но на среду не будут влиять какие-либо аномальные/экстремальные значения в наборе данных.
Выбросы Невежество
Выбросы — это аномальные значения, которые отличаются от остальных. В какой-то момент эти выбросы также могут быть чувствительными. Без полного изучения набора данных мы не можем игнорировать выбросы.
Например:
- Прогноз значения глубины на основе наблюдаемых осадков имеет большое значение для выбросов.
- Прогноз цены дома не имеет значения выбросов.
Утечка данных
Что такое проблема утечки данных в моделях ML?
Утечка данных происходит, когда данные, которые мы используем для обучения модели, имеют информацию, которую модель пытается предсказать. Это приводит к ненадежным и плохим результатам прогнозирования после развертывания модели.
Эта проблема может возникнуть, вероятно, из-за методов стандартизации или нормализации данных. Потому что большинство из нас будет использовать эти методы, прежде чем разделить данные для обучения и тестирования. Это повлияет на жизненно важную роль тестового набора, который играет на этапе прогнозирования.
Выберите подходящие модели
Выбор моделей преимущественно основан на размере и сложности набора данных, потому что, если мы имеем дело со сложной проблемой, нам нужно использовать некоторые высокоэффективные модели, такие как SVN, KNN, Random Forest и так далее.
Я уверен, что в большинстве случаев этап EDA поможет нам выбрать модель. В визуализации, если данные линейно разделимы, мы можем использовать линейную регрессию. Если мы понятия не имеем о данных, SVM и KNN будут полезны.
В реальном времени я чувствовал, что нежелательный переход к некоторым сложным моделям может иметь некоторые проблемы с объяснением для людей, ориентированных на бизнес. Например, линейную регрессию будет легче объяснить, чем алгоритмы нейронных сетей.
Проверка с соответствующими показателями
Метрики — это количественная мера предикторов и фактических значений модели. Эти показатели различны для всех типов задач машинного обучения. Если проблема находится на стороне регрессии, ключевыми показателями являются точность (оценка R2), MAE (средняя абсолютная ошибка) и RMSE (среднеквадратичная ошибка). Если это относится к классификации, ключевыми показателями являются Precision, Recall, F1score и матрица путаницы.
На начальном этапе у меня тоже была некоторая путаница в выборе метрики преимущественно для сетей глубокого обучения, которые подвергаются регрессии. Итак, при разработке убедитесь, что вы ответили на вопрос: с каким типом проблемы вы имеете дело, с регрессией или классификацией? Это база для всех, кто выбирает модель и метрики. Это довольно маленький блог, но я надеюсь, что он может помочь вам, ребята, где-нибудь.
Мне бы хотелось услышать отзыв . Спасибо за ваше время!