1 Описание метода главных компонент
Метод главных компонент (МГК) был предложен в 1901 году Карлом Пирсоном. Затем в 1933 году метод был вновь открыт и детально разработан Гарольдом Хотеллингом.
1.1 Идея метода
Идея метода заключается в том, чтобы проецировать имеющиеся данные на гиперплоскость (подпространство, с размерностью на 1 меньше) с наименьшей ошибкой проектирования.
Метод главных компонент (рисунок 1) позволяет уменьшить число переменных, выбрав самые изменчивые, перейдя к главным компонентам, которые между собой не коррелируют.
Первая главная компонента PC1 (первый обобщенный признак) выбирается таким образом, чтобы объяснить максимально возможную дисперсию исходных признаков. Вторая главная компонента PC2 объясняет максимально возможную часть от оставшейся дисперсии и не зависит от первой главной компоненты. Аналитически главные компоненты выражаются через линейные комбинации исходных признаков:
PC1 = a1,1*x1+a1,2*x2+…+a1,n*xn (1)
PC2 = a2,1*x1+a2,2*x2+…+a2,n*xn
…
PCn = an,1*x1+an,2*x2+…+an,n*xn
Коэффициенты ai,j определяют вклад j-го признака в i-й фактор. Наибольший интерес представляют факторы, объясняющие большие доли общей дисперсии признаков – им можно попытаться дать содержательную интерпретацию [1].
Рисунок 1 – Метод главных компонент.
a) данные в исходных координатах; b) данные в координатах главных компонент.
МКГ позволяет:
• визуализировать сложный набор данных;
• увидеть самые информативные переменные;
• увидеть особенные наблюдения, если главная компонента принимает вид, непохожий на другие;
• перейти от коррелированных данных к некоррелированным переменным [2].
1.2 Ограничения метода
Основным объектом преобразований является корреляционная матрица из коэффициентов корреляции Пирсона. Применение методов факторного анализа накладывает ограничения на матрицу исходных данных:
• необходимо, чтобы переменные были выражены в одинаковых единицах измерения;
• требуется равноправие переменных;
• признаки должны измеряться в количественной шкале;
• в матрице данных не должно быть пропущенных значений;
• связи между парами переменных должны быть близки к линейным.
2 Алгоритм метода главных компонент
Первым этапом является центрирование и нормирование переменных – переход к (xi-xср). Далее составляется ковариационная матрица. Следующим этапом необходимо найти собственные значения и собственные вектора матрицы и, наконец, перейти к новым переменным – главным компонентам.
Выделение главных компонентов в факторном анализе проводится по диаграмме рассеяния изучаемых переменных. Процедура выделения главных компонентов подобна вращению, доводящему до максимума дисперсию (так называемый варимакс) исходного пространства переменных. Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора, факторного комплекса) и минимизации разброса вокруг нее [3].
После того, как найдена линия, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. И процедура повторяется. В анализе главных компонентов именно так и делается: после того, как первый фактор выделен, определяется следующая линия, максимизирующая остаточную вариацию (разброс данных вокруг первой прямой), и т.д. Таким образом, факторы последовательно выделяются один за другим. Так как каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга. Другими словами, некоррелированными или ортогональными. При повторных итерациях выделяются факторы все с меньшей и меньшей дисперсией. Решение об остановке процедуры выделения факторов принимается на основании двух наиболее распространённых рекомендаций: критерия Кайзера и критерия каменистой осыпи [3].
Критерий Кайзера. Если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий предложен Кайзером (Kaiser, 1960), и является наиболее широко используемым.
Критерий каменистой осыпи. Критерий каменистой осыпи является графическим методом, впервые предложенным Кэттелем (Cattell, 1966). Собственные значения (факторную нагрузку) можно изобразить в виде простого графика (рисунок 2). Компонентополагающим числом на графике является место, где убывание собственных значений слева направо представляет собою крутой склон, расстояние между точками примерно равно единице и собственное значение компонента больше единицы. Незначимые компоненты находятся далее на максимально замедленной части кривой, расстояние между точками меньше единицы и собственное значение компонента меньше единицы, так называемый «щебень».
Рисунок 2 – Точечная диаграмма значимости факторных моделей
Первый критерий (критерий Кайзера) часто сохраняет слишком много факторов, в то время как второй критерий (критерий каменистой осыпи) может сохранить слишком мало факторов; однако оба критерия вполне хороши при условиях, когда имеется относительно небольшое число факторных комплексов (моделей) и много переменных. На практике возникает важный дополнительный вопрос: какое количество компонентов может быть содержательно интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторных комплексов, и затем выбирается одно наиболее «осмысленное» и клинически значимое [3].
Оценка изучаемой переменной в новом факторном комплексе (компоненте) представляется в матрице компонентов векторной нагрузкой переменной, которая по сути своей является корреляционным коэффициентом взаимосвязи переменной и нового факторного комплекса (компонента). Какую матрицу компонентов, с повёрнутым решением или нет, представлять в результатах статистической обработки, зависит от выбора исследователя, учитывающего и описывающего клиническую целесообразность зависимостей переменных в компоненте и количества компонентов [3].
3 Использование метода главных компонент в пакете «Statistica»
«Statistica» — программный пакет для статистического анализа, разработанный компанией StatSoft, реализующий функции анализа данных, управления данных, добычи данных, визуализации данных с привлечением статистических методов.
Метод главных компонент входит в факторный анализ в пакете Statistica. Анализ будем проводить с помощью примера, основанного на данных, полученных при изучении эффективности лечения больных двумя комплексами.