Должен ли я использовать в своей работе анализ основных компонентов (PCA) или исследовательский факторный анализ (EFA)? Это распространенный вопрос, с которым регулярно сталкиваются аналитики, работающие с многомерными данными, например социологи, исследователи потребителей или инженеры.

В этой статье я поделюсь своим любимым примером для объяснения ключевого различия между PCA и EFA. Это различие открывает дверь для объяснения других важных различий и полезно при выяснении того, какой метод наиболее подходит для данного приложения. Неправильный выбор может означать вводящие в заблуждение результаты или неправильное понимание данных.

Наглядный пример

Давайте начнем с создания некоторых данных, которые следуют стандартному нормальному распределению (сценарий JSL для всех анализов находится здесь, если вы хотите продолжить). В частности, я создаю таблицу данных с 1000 наблюдениями по четырем переменным, которые не коррелируют друг с другом.

Мы можем использовать платформу Multivariate в JMP, чтобы посмотреть на корреляции между переменными и подтвердить их независимость. Мне особенно нравится использовать цветовую карту корреляций, чтобы проиллюстрировать нулевые корреляции вне диагонали:

Рис. 1. Коэффициенты корреляции и соответствующая тепловая карта для четырех моделируемых переменных. Изображение было создано с помощью программного обеспечения JMP Pro, авторское право © 2021 SAS Institute Inc., использовано с разрешения автора.

Теперь мы можем задать себе важный вопрос: как бы выглядели результаты, если бы я использовал PCA для этих данных? И как бы выглядели результаты, если бы я вместо этого использовал EFA? Если вы не уверены, продолжайте читать.

Давайте воспользуемся платформой факторного анализа в JMP для одновременного выполнения PCA и EFA на этих данных. Я оставлю один компонент / фактор только потому, что у нас небольшое количество переменных. Это также устраняет необходимость в вращении.

Компонентные или факторные нагрузки из анализов имеют решающее значение, чтобы помочь нам понять, что представляет собой компонент или фактор; переменные с высокими нагрузками (обычно определяемые как 0,4 по абсолютной величине или выше, потому что это предполагает, что не менее 16% дисперсии измеряемой переменной перекрывается с дисперсией фактора) являются наиболее репрезентативными для компонента или фактора. Ниже мы можем сравнить результирующие нагрузки компонентов (отображается первым) с факторными нагрузками (отображается вторым).

Рис. 2. Компонентные и факторные нагрузки из анализа основных компонентов и исследовательского факторного анализа по четырем моделируемым переменным, которые не коррелированы. Изображение было создано с помощью программного обеспечения JMP Pro, авторское право © 2021 SAS Institute Inc., использовано с разрешения автора.

Мы видим, что результаты разительно отличаются! PCA дал нам три нагрузки, превышающие 0,4 по абсолютной величине, тогда как EFA не дал ни одной. Почему? Потому что, когда мы делаем EFA, мы неявно запрашиваем анализ сокращенной матрицы корреляции, для которой те, что на диагонали, были заменены на квадрат множественных корреляций (SMC). Действительно, беглый взгляд на цветовую карту корреляций уменьшенной матрицы корреляции проливает свет на то, почему можно получить такие разные результаты:

Рис. 3. Тепловая карта сокращенной корреляционной матрицы, где единицы на диагонали заменены квадратами множественных корреляций. Изображение было создано с помощью программного обеспечения JMP Pro, авторское право © 2021 SAS Institute Inc., использовано с разрешения автора.

В этом примере каждая запись в сокращенной матрице корреляции очень мала (почти равна нулю! Фактические значения - 0,002, 0,002, 0,004 и 0,001). Разложение по собственным значениям полной корреляционной матрицы (рисунок 1) выполняется в PCA, однако для EFA разложение по собственным значениям выполняется на сокращенной матрице корреляции (рисунок 3). Различия в проанализированных данных помогают объяснить различия между анализами, но ничто из этого не говорит нам, что эти различия означают с практической точки зрения….

Практическое значение анализа полной и сокращенной корреляционной матрицы

PCA и EFA имеют разные цели: PCA - это метод уменьшения размерности данных, тогда как EFA - это метод выявления и измерения переменных, которые нельзя измерить напрямую (т. Е. Скрытых переменных или факторов). Таким образом, в PCA вся дисперсия данных, отраженная полной корреляционной матрицей, используется для достижения решения, а полученные компоненты представляют собой смесь того, что переменные предназначены для измерения, и других источников дисперсии, таких как ошибка измерения ( см. левую панель рисунка 4).

Напротив, в EFA не вся дисперсия данных происходит из-за скрытой переменной (см. Правую панель рисунка 4). Эта особенность отражена в алгоритме EFA путем «уменьшения» корреляционной матрицы со значениями SMC. Это уместно, потому что SMC - это оценка дисперсии, которую основной фактор (факторы) объясняет в данной переменной (также известной как общность). Если бы мы выполнили ОДВ с единицами по диагонали, то мы бы неявно указали, что факторы объясняют все дисперсию в измеряемых переменных, и мы будем проводить РСА, а не ОДВ.

Рисунок 4. Графическое сравнение анализа основных компонентов и исследовательского факторного анализа. Изображение автора.

Рисунок 4 также иллюстрирует еще одно важное различие между PCA и EFA. Обратите внимание, что стрелки в PCA указывают от измеряемых переменных к главному компоненту, а в EFA - наоборот. Стрелки представляют причинно-следственные связи, так что изменчивость измеряемых переменных в PCA вызывает дисперсию в главном компоненте. Это контрастирует с EFA, где латентный фактор рассматривается как вызывающий изменчивость и характер корреляций между измеряемыми переменными (Marcoulides & Hershberger, 1997).

В интересах ясности я сделаю еще несколько наблюдений. Во-первых, большинство многомерных данных в некоторой степени коррелированы, поэтому различия между PCA и EFA, как правило, не так заметны, как в этом примере. Во-вторых, по мере роста числа переменных, участвующих в анализе, результаты PCA и EFA становятся все более и более похожими. Исследователи утверждали, что анализ по крайней мере с 40 переменными приводит к незначительным различиям (Snook & Gorsuch, 1989). В-третьих, если общность измеряемых переменных высока (т.е. приближается к 1), то результаты между PCA и EFA также аналогичны. Наконец, этот мой любимый пример основан на использовании метода факторинга «главной оси», но существуют и другие методы оценки, для которых результаты могут отличаться. Все эти наблюдения необходимо учитывать, когда аналитики делают выбор между EFA и PCA. Но, возможно, наиболее важным для психометров (тех, кто разработал EFA в первую очередь) является тот факт, что EFA постулирует теорию анализируемых переменных; теория, восходящая к Спирмену (1904) и предполагающая, что ненаблюдаемые факторы определяют то, что мы можем измерить напрямую.

Я перечисляю некоторые ключевые моменты ниже, но отмечу, что отличный источник для продолжения изучения этой темы - это Widaman (2007).

Ключевые моменты

  • PCA полезен для уменьшения количества переменных, сохраняя при этом наибольший объем информации в данных, тогда как EFA полезен для измерения ненаблюдаемых (скрытых), безошибочных переменных.
  • Когда переменные не имеют ничего общего, как в приведенном выше примере, EFA не найдет четко определенного базового фактора, но PCA найдет четко определенный главный компонент, который объясняет максимальную дисперсию данных.
  • Когда целью является измерение скрытой переменной без ошибок, но используется PCA, нагрузки компонентов, скорее всего, будут выше, чем они были бы при использовании EFA. Это могло бы ввести аналитиков в заблуждение, заставив думать, что у них есть четко определенный, безошибочный фактор, хотя на самом деле у них есть четко определенный компонент, который представляет собой смесь всех источников расхождения в данных.
  • Когда цель состоит в том, чтобы получить небольшое подмножество переменных, которые сохраняют наибольшую вариативность данных, но используется EFA, факторные нагрузки, вероятно, будут ниже, чем они были бы при использовании PCA. Это могло бы ввести аналитиков в заблуждение, полагая, что они сохраняли максимальное количество дисперсии в данных, хотя на самом деле они сохраняли дисперсию, общую для измеряемых переменных.

использованная литература

Маркулидес, Г. А., и Хершбергер, С. Л. (1997). Многомерные статистические методы: первый курс. Психология Press.

Снук, С. К., и Горсуч, Р. Л. (1989). Компонентный анализ по сравнению с анализом общих факторов: исследование Монте-Карло. Психологический бюллетень, 106, 148–154.

Спирмен, К. (1904). «Общий интеллект» объективно определяется и измеряется. Американский журнал психологии, 15, 201–293.

Видаман, К. Ф. (2007). Общие факторы в сравнении с компонентами: принципы и принципы, ошибки и заблуждения. Факторный анализ на уровне 100: исторические события и направления на будущее, 177–203.

Эта статья была первоначально опубликована в сообществе пользователей JMP 25 апреля 2017 г.