Важность уменьшения размерности !!

В машинном обучении и статистике, чтобы построить хорошо работающую модель, мы пытаемся передать те функции в наборе данных, которые важны друг для друга.

Другими словами, уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных.

Проблема с данными большого размера?

Это может означать высокие вычислительные затраты на обучение.
Это часто приводит к чрезмерной подгонке при обучении модели, что означает, что модель будет хорошо работать на обучающих данных, но плохо на тестовых данных.
Данные редко распределяются случайным образом в больших измерениях и сильно коррелированы, часто с ложными корреляциями.
Расстояния между ближайшей и самой дальней точкой данных могут стать равноудаленными в больших измерениях, что может снизить точность некоторых инструментов анализа на основе расстояния.

Зачем нам нужно уменьшение размерности?

Снижение размерности помогает решить эти проблемы, пытаясь сохранить большую часть релевантной информации в данных, необходимых для изучения точных прогнозных моделей.
Часто существует слишком много факторов, на основании которых делается окончательный прогноз. Эти факторы в основном являются переменными, называемыми функциями.
Чем больше количество функций, тем сложнее визуализировать обучающий набор, а затем работать над ним.
Иногда большинство этих функций коррелированы и, следовательно, являются избыточными. Здесь в игру вступают алгоритмы уменьшения размерности.

Важность уменьшения размерности?

Это сокращает время и необходимое пространство для хранения.
Это помогает удалить мультиколлинеарность, что улучшает интерпретацию параметров модели машинного обучения.
При уменьшении до очень малых размеров, таких как 2D или 3D, становится легче визуализировать данные.
Избегает проклятия размерности.
Он удаляет нерелевантные функции из данных, потому что наличие нерелевантных функций в данных может снизить точность моделей и заставить вашу модель обучаться на основе нерелевантных функций.

В машинном обучении «размерность» просто означает количество функций / переменных в вашем наборе данных.

Когда количество функций / переменных очень велико по сравнению с количеством наблюдений в вашем наборе данных, определенным алгоритмам сложно обучить эффективные модели. Это называется «Проклятие размерности».

Снижение размерности можно разделить на:

Выбор функций -
Выбор функций - это метод, введенный в машинное обучение для удаления менее значимых функций из данных, чтобы модель обучалась только тем функциям, которые вносят наибольший вклад в предсказывающая (зависимая) переменная.
Типы методов выбора функций:
* Фильтр
* Обертка
* Встроенный
Извлечение признаков -
Извлечение признаков - это процесс уменьшения размерности, при котором исходный набор необработанных данных сокращается до более управляемых групп для обработки.
Этот процесс обычно выполняется с изображением и текстовые данные, где извлекается и отправляется на обработку только важная функция, а не все данные.
Извлечение функций может быть неконтролируемым (PCA) или контролируемым (LDA).

Мы узнаем о каждом методе и приеме в следующих статьях! Следите за обновлениями.

Удачного обучения !!!!!

Понравилась моя статья? Обязательно хлопайте мне в ладоши и делитесь ими, так как это повысит мою уверенность. Кроме того, я публикую новые статьи каждое воскресенье, так что оставайтесь на связи в будущих статьях из серии статей по основам науки о данных и машинного обучения.

Кроме того, свяжитесь со мной на connectedIn.