Повысьте свое понимание анализа главных компонентов с помощью пошагового вывода

Анализ главных компонентов (PCA) — старый метод, обычно используемый для уменьшения размерности. Несмотря на то, что это хорошо известная тема среди специалистов по данным, вывод PCA часто упускается из виду, оставляя после себя ценную информацию о природе данных и взаимосвязи между исчислением, статистикой и линейной алгеброй.

В этой статье мы выведем PCA посредством мысленного эксперимента, начиная с двух измерений и заканчивая произвольными измерениями. По мере того, как мы продвигаемся по каждому выводу, мы увидим гармоничное взаимодействие, казалось бы, разных разделов математики, достигающее кульминации в элегантном преобразовании координат. Этот вывод раскроет механику PCA и раскроет увлекательную взаимосвязь математических понятий. Давайте приступим к этому поучительному исследованию PCA и его красоты.

Разминка в двух измерениях

Как люди, живущие в трехмерном мире, мы обычно понимаем двухмерные понятия, и именно с этого мы и начнем в этой статье. Начав с двух измерений, мы упростим наш первый мысленный эксперимент и сможем лучше понять природу проблемы.

Теория

У нас есть набор данных, который выглядит примерно так (обратите внимание, что каждая функция должна быть масштабирована, чтобы иметь среднее значение 0 и дисперсию 1):

Мы сразу замечаем, что эти данные лежат в системе координат, описываемой x1 и x2, и эти переменные коррелируют. Наша цель — найти новую систему координат, основанную на ковариационной структуре данных. В частности, первый базисный вектор в системе координат должен объяснять большую часть дисперсии при проецировании на него исходных данных. .

Наша первая задача — найти такой вектор, чтобы при проецировании исходных данных на вектор сохранялась максимальная величина дисперсии. Другими словами, идеальный вектор указывает в направлении максимальной дисперсии, как это определено...