В машинном обучении и статистике, чтобы построить хорошо работающую модель, мы пытаемся передать те функции в наборе данных, которые важны друг для друга.

Другими словами, уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных.

Проблема с данными большого размера?

  1. Это может означать высокие вычислительные затраты на обучение.
  2. Это часто приводит к чрезмерной подгонке при обучении модели, что означает, что модель будет хорошо работать на обучающих данных, но плохо на тестовых данных.
  3. Данные редко распределяются случайным образом в больших измерениях и сильно коррелированы, часто с ложными корреляциями.
  4. Расстояния между ближайшей и самой дальней точкой данных могут стать равноудаленными в больших измерениях, что может снизить точность некоторых инструментов анализа на основе расстояния.

Зачем нам нужно уменьшение размерности?

  • Снижение размерности помогает решить эти проблемы, пытаясь сохранить большую часть релевантной информации в данных, необходимых для изучения точных прогнозных моделей.
  • Часто существует слишком много факторов, на основании которых делается окончательный прогноз. Эти факторы в основном являются переменными, называемыми функциями.
  • Чем больше количество функций, тем сложнее визуализировать обучающий набор, а затем работать над ним.
  • Иногда большинство этих функций коррелированы и, следовательно, являются избыточными. Здесь в игру вступают алгоритмы уменьшения размерности.

Важность уменьшения размерности?

  • Это сокращает время и необходимое пространство для хранения.
  • Это помогает удалить мультиколлинеарность, что улучшает интерпретацию параметров модели машинного обучения.
  • При уменьшении до очень малых размеров, таких как 2D или 3D, становится легче визуализировать данные.
  • Избегает проклятия размерности.
  • Он удаляет нерелевантные функции из данных, потому что наличие нерелевантных функций в данных может снизить точность моделей и заставить вашу модель обучаться на основе нерелевантных функций.

В машинном обучении «размерность» просто означает количество функций / переменных в вашем наборе данных.

Когда количество функций / переменных очень велико по сравнению с количеством наблюдений в вашем наборе данных, определенным алгоритмам сложно обучить эффективные модели. Это называется «Проклятие размерности».

Снижение размерности можно разделить на:

  1. Выбор функций -
    Выбор функций - это метод, введенный в машинное обучение для удаления менее значимых функций из данных, чтобы модель обучалась только тем функциям, которые вносят наибольший вклад в предсказывающая (зависимая) переменная.
    Типы методов выбора функций:
    * Фильтр
    * Обертка
    * Встроенный
  2. Извлечение признаков -
    Извлечение признаков - это процесс уменьшения размерности, при котором исходный набор необработанных данных сокращается до более управляемых групп для обработки.
    Этот процесс обычно выполняется с изображением и текстовые данные, где извлекается и отправляется на обработку только важная функция, а не все данные.
    Извлечение функций может быть неконтролируемым (PCA) или контролируемым (LDA).

Мы узнаем о каждом методе и приеме в следующих статьях! Следите за обновлениями.

Удачного обучения !!!!!

Понравилась моя статья? Обязательно хлопайте мне в ладоши и делитесь ими, так как это повысит мою уверенность. Кроме того, я публикую новые статьи каждое воскресенье, так что оставайтесь на связи в будущих статьях из серии статей по основам науки о данных и машинного обучения.

Кроме того, свяжитесь со мной на connectedIn.