Извлечение признаков

Шаг 3 предварительной обработки данных

Часть 2: Извлечение функций

Размерность данных может быть уменьшена без потери исходного набора данных.

Он извлекает или извлекает информацию из исходного набора признаков для создания нового подпространства признаков.

Эти методы также используются для:

Алгоритмы извлечения признаков преобразовывают данные в новое пространство признаков.
Когда важно извлечь полезную информацию из данных, поэтому создание нового подпространства объектов не влияет на модель.
Используется для улучшения прогностических характеристик моделей.

Предполагается, что данные попадают в линейное подпространство или классы данных можно различить линейно.

2. нелинейный

Предполагается, что структура данных более сложна и существует на нелинейном подмногообразии.

В основном они концентрируются на изменении и распространении данных.

Линейный неконтролируемый метод
Цель PCA - найти ортогональные направления, которые представляют данные с наименьшей ошибкой.
PCA пытается максимизировать эту дисперсию, чтобы найти самые разные ортонормированные направления данных.
Желаемые направления являются собственными векторами ковариационной матрицы данных.

2. Анализ основных компонентов ядра:

KPCA находит нелинейное подпространство данных, что полезно, если шаблон данных не является линейным.
PCA ядра использует метод ядра, который сопоставляет данные с пространством более высокой размерности.
Ядро PCA полагается на благословение размерности за счет использования ядер. т. е. предполагается, что в более высоких измерениях представление или различение данных проще.

Его также называют дискриминантным анализом Фишера (FDA) или линейным дискриминантным анализом (LDA).
Подобно PCA, FLDA вычисляет проекцию данных по направлению;
Однако вместо того, чтобы максимизировать вариацию данных, FLDA использует информацию на этикетках, чтобы получить прогноз, максимизирующий отношение дисперсии между классами к дисперсии внутри класса.