В машинном обучении и статистике, чтобы построить хорошо работающую модель, мы пытаемся передать те функции в наборе данных, которые важны друг для друга.
Другими словами, уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных.
Проблема с данными большого размера?
- Это может означать высокие вычислительные затраты на обучение.
- Это часто приводит к чрезмерной подгонке при обучении модели, что означает, что модель будет хорошо работать на обучающих данных, но плохо на тестовых данных.
- Данные редко распределяются случайным образом в больших измерениях и сильно коррелированы, часто с ложными корреляциями.
- Расстояния между ближайшей и самой дальней точкой данных могут стать равноудаленными в больших измерениях, что может снизить точность некоторых инструментов анализа на основе расстояния.
Зачем нам нужно уменьшение размерности?
- Снижение размерности помогает решить эти проблемы, пытаясь сохранить большую часть релевантной информации в данных, необходимых для изучения точных прогнозных моделей.
- Часто существует слишком много факторов, на основании которых делается окончательный прогноз. Эти факторы в основном являются переменными, называемыми функциями.
- Чем больше количество функций, тем сложнее визуализировать обучающий набор, а затем работать над ним.
- Иногда большинство этих функций коррелированы и, следовательно, являются избыточными. Здесь в игру вступают алгоритмы уменьшения размерности.
Важность уменьшения размерности?
- Это сокращает время и необходимое пространство для хранения.
- Это помогает удалить мультиколлинеарность, что улучшает интерпретацию параметров модели машинного обучения.
- При уменьшении до очень малых размеров, таких как 2D или 3D, становится легче визуализировать данные.
- Избегает проклятия размерности.
- Он удаляет нерелевантные функции из данных, потому что наличие нерелевантных функций в данных может снизить точность моделей и заставить вашу модель обучаться на основе нерелевантных функций.
В машинном обучении «размерность» просто означает количество функций / переменных в вашем наборе данных.
Когда количество функций / переменных очень велико по сравнению с количеством наблюдений в вашем наборе данных, определенным алгоритмам сложно обучить эффективные модели. Это называется «Проклятие размерности».
Снижение размерности можно разделить на:
- Выбор функций -
Выбор функций - это метод, введенный в машинное обучение для удаления менее значимых функций из данных, чтобы модель обучалась только тем функциям, которые вносят наибольший вклад в предсказывающая (зависимая) переменная.
Типы методов выбора функций:
* Фильтр
* Обертка
* Встроенный - Извлечение признаков -
Извлечение признаков - это процесс уменьшения размерности, при котором исходный набор необработанных данных сокращается до более управляемых групп для обработки.
Этот процесс обычно выполняется с изображением и текстовые данные, где извлекается и отправляется на обработку только важная функция, а не все данные.
Извлечение функций может быть неконтролируемым (PCA) или контролируемым (LDA).
Мы узнаем о каждом методе и приеме в следующих статьях! Следите за обновлениями.
Удачного обучения !!!!!
Понравилась моя статья? Обязательно хлопайте мне в ладоши и делитесь ими, так как это повысит мою уверенность. Кроме того, я публикую новые статьи каждое воскресенье, так что оставайтесь на связи в будущих статьях из серии статей по основам науки о данных и машинного обучения.
Кроме того, свяжитесь со мной на connectedIn.