Шаг 3 предварительной обработки данных

Часть 1: Выбор характеристик

Часть 2: Извлечение функций

Размерность данных может быть уменьшена без потери исходного набора данных.

Он извлекает или извлекает информацию из исходного набора признаков для создания нового подпространства признаков.

Эти методы также используются для:

  • Уменьшение количества функций из исходного набора функций
  • Уменьшение сложности модели, переоснащение модели.
  • Повысьте эффективность вычислений модели и уменьшите ошибку обобщения.

Разница между выбором признаков и извлечением признаков

Выбор функций:

  • Исходные функции сохраняются в случае алгоритмов выбора функций.
  • Он используется, если требуется сохранить исходные функции.
  • когда объяснимость модели является ключевым требованием.

Извлечение признаков:

  • Алгоритмы извлечения признаков преобразовывают данные в новое пространство признаков.
  • Когда важно извлечь полезную информацию из данных, поэтому создание нового подпространства объектов не влияет на модель.
  • Используется для улучшения прогностических характеристик моделей.

Две категории извлечения признаков:

  1. Линейный
  • Предполагается, что данные попадают в линейное подпространство или классы данных можно различить линейно.

2. нелинейный

  • Предполагается, что структура данных более сложна и существует на нелинейном подмногообразии.

Неконтролируемое извлечение признаков:

В основном они концентрируются на изменении и распространении данных.

  1. СПС:
  • Линейный неконтролируемый метод
  • Цель PCA - найти ортогональные направления, которые представляют данные с наименьшей ошибкой.
  • PCA пытается максимизировать эту дисперсию, чтобы найти самые разные ортонормированные направления данных.
  • Желаемые направления являются собственными векторами ковариационной матрицы данных.

2. Анализ основных компонентов ядра:

  • KPCA находит нелинейное подпространство данных, что полезно, если шаблон данных не является линейным.
  • PCA ядра использует метод ядра, который сопоставляет данные с пространством более высокой размерности.
  • Ядро PCA полагается на благословение размерности за счет использования ядер. т. е. предполагается, что в более высоких измерениях представление или различение данных проще.

Существует так много других неконтролируемых методов извлечения признаков, таких как:

  1. Двойной PCA
  2. Многомерное масштабирование
  3. Изомап
  4. Локально линейное вложение
  5. Лапласова собственная карта
  6. Максимальная дисперсия разворачивается
  7. Автоэнкодеры и нейронные сети
  8. T-распределенное стохастическое встраивание соседей

Извлечение контролируемых признаков:

  1. Линейный дискриминантный анализ Фишера:
  • Его также называют дискриминантным анализом Фишера (FDA) или линейным дискриминантным анализом (LDA).
  • Подобно PCA, FLDA вычисляет проекцию данных по направлению;
  • Однако вместо того, чтобы максимизировать вариацию данных, FLDA использует информацию на этикетках, чтобы получить прогноз, максимизирующий отношение дисперсии между классами к дисперсии внутри класса.

Другие методы:

  1. Кернел Фишер Линейный дискриминантный анализ
  2. PCA под наблюдением
  3. Метрическое обучение

Применение методов выбора признаков и извлечения признаков

Ссылка:

  1. Бумага: всесторонний обзор методов уменьшения размерности для выбора и извлечения признаков из журнала тенденций прикладной науки и технологий.
  2. https://elearn.daffodilvarsity.edu.bd/pluginfile.php/1225702/mod_label/intro/Feature%20Selection%20with%20numeric%20and%20categorical%20data.pdf
  3. https://vitalflux.com/machine-learning-feature-selection-feature-extraction/
  4. https://downloads.hindawi.com/archive/2015/198363.pdf