인자 분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 요인 분석의 종류
- 2.1. 탐색적 요인 분석 (EFA, Exploratory Factor Analysis)
- 2.2. 확인적 요인 분석 (CFA, Confirmatory Factor Analysis)
3. 요인 분석의 통계적 모델
- 3.1. 정의
- 3.2. 성질
4. 요인 분석의 실제 적용
5. 요인 분석과 주성분 분석(PCA)의 비교
6. 요인 분석 소프트웨어
참조

1. 개요

인자 분석은 변수들 간의 관계를 분석하여 데이터의 구조를 파악하는 통계적 방법론이다. 탐색적 요인 분석(EFA)과 확인적 요인 분석(CFA)으로 나뉘며, EFA는 사전 정보 없이 데이터의 잠재 구조를 탐색하고, CFA는 연구자가 설정한 가설을 검증한다. 요인 분석은 관찰된 변수를 공통 인자와 고유 인자로 설명하는 선형 모델을 사용하며, 심리 측정학, 마케팅, 사회 과학, 자연 과학 등 다양한 분야에서 활용된다. 주성분 분석(PCA)과 유사하지만, 요인 분석은 관찰된 변수의 공통 분산을 설명하는 잠재 요인을 추출하는 데 중점을 둔다. R, SAS, SPSS, Stata, JMP, Mplus 등 다양한 통계 소프트웨어를 통해 수행할 수 있다.

더 읽어볼만한 페이지

잠재 변수 모형 - 잠재 의미 분석
잠재 의미 분석은 텍스트 데이터의 의미 구조를 파악하기 위해 문서-단어 행렬에 특이값 분해를 적용하여 차원을 축소하고 잠재된 의미를 추출하는 정보 검색 기술이다.
잠재 변수 모형 - 토픽 모델
토픽 모델은 텍스트 데이터에서 문서의 주제를 찾기 위해 사용되는 통계적 모델링 방법으로, 잠재 의미 분석(LSI)에서 잠재 디리클레 할당(LDA)까지 다양한 모델이 개발되어 텍스트 데이터 분석 외 여러 분야에 응용되며, Mallet, Gensim 등의 도구로 사용 가능하다.
제품 관리 - 낙수 효과
낙수 효과는 부유층의 부가 증가하면 사회 전체로 긍정적인 효과가 확산되어 서민층의 경제적 상황도 개선된다는 이론이지만, 경제학적 근거가 부족하고 오히려 소득 불균형 심화와 같은 부정적 결과를 초래한다는 비판이 있다.
제품 관리 - 제품 차별화
제품 차별화는 기업이 경쟁 제품과 차별성을 부각하여 소비자 수요를 확보하는 전략으로, 단순, 수평, 수직적 차별화로 나뉘며 광고, 포장, 브랜드화 등의 마케팅 활동을 통해 경쟁 우위를 점하고 틈새 시장을 공략한다.
시장 조사 - 세계에서 가장 살기 좋은 도시
세계에서 가장 살기 좋은 도시는 평가 기관별 기준에 따라 순위가 다르지만, 안정성, 의료, 문화, 환경, 교육, 인프라 등 다양한 요소를 고려하며, 유럽과 오세아니아의 도시들이 상위권을 차지하고, 한국 도시들의 삶의 질 향상을 위해서는 녹지 공간 확보, 대중교통 시스템 개선, 시민 참여 확대 등이 필요하다.
시장 조사 - 쿨헌팅
쿨헌팅은 기업이 젊은 세대의 트렌드를 파악하도록 돕는 마케팅 활동으로, 청소년 문화 예측 보고서 판매, 컨설팅, 표적 집단 면접, 쿨 나르크 활용, 온라인 시장 조사 등의 방법으로 정보를 수집한다.

인자 분석

2. 요인 분석의 종류

요인 분석은 크게 탐색적 요인 분석(EFA)과 확인적 요인 분석(CFA)으로 나뉜다. 전자는 변수들 간의 상호 관계를 탐색하여 잠재 요인을 찾아내는 방법이고, 후자는 연구자가 사전에 설정한 요인 구조 가설을 검증하는 방법이다.

2. 1. 탐색적 요인 분석 (EFA, Exploratory Factor Analysis)

탐색적 요인 분석(EFA, Exploratory Factor Analysis)은 항목 간의 복잡한 상호 관계를 식별하고 통일된 개념의 일부인 항목을 그룹화하는 데 사용된다.^[4] 연구자는 요인 간의 관계에 대해 ''사전'' 가정을 하지 않는다.^[4]

주성분 분석(PCA)은 요인 추출에 널리 사용되는 방법으로, EFA의 첫 번째 단계이다.^[4] 요인 가중치는 가능한 최대 분산을 추출하도록 계산되며, 의미 있는 분산이 더 이상 없을 때까지 연속적인 요인 추출이 계속된다.^[4] 그런 다음 요인 모델을 분석을 위해 회전시켜야 한다.^[4]

캐노니컬 요인 분석(Canonical factor analysis)은 라오의 캐노니컬 요인 분석이라고도 하며, 주축 방법을 사용하여 PCA와 동일한 모델을 계산하는 다른 방법이다. 캐노니컬 요인 분석은 관찰된 변수와 가장 높은 캐노니컬 상관 관계를 갖는 요인을 찾는다. 캐노니컬 요인 분석은 데이터의 임의적인 재조정에 영향을 받지 않는다.

공통 요인 분석(Common factor analysis)은 주요 요인 분석(PFA) 또는 주축 요인 분석(PAF)이라고도 하며, 변수 집합의 공통 분산(상관 관계)을 설명할 수 있는 최소 요인을 찾는다.

이미지 요인 분석은 실제 변수가 아닌 예측 변수의 상관 행렬을 기반으로 하며, 여기서 각 변수는 다중 회귀를 사용하여 다른 변수에서 예측된다.

알파 요인 분석은 변수가 변수 집합에서 임의로 추출된다고 가정하여 요인의 신뢰성을 최대화하는 것을 기반으로 한다. 다른 모든 방법은 사례를 표본 추출하고 변수를 고정하는 것으로 가정한다.

요인 회귀 모델은 요인 모델과 회귀 모델의 조합 모델이며, 또는 요인이 부분적으로 알려진 하이브리드 요인 모델로 볼 수 있다.^[5]

2. 2. 확인적 요인 분석 (CFA, Confirmatory Factor Analysis)

확인적 요인 분석(CFA, Confirmatory Factor Analysis)은 연구자가 사전에 설정한 요인 구조에 대한 가설을 검증하는 데 사용된다. 연구자는 항목들이 특정 요인과 관련이 있다는 가설을 세우고, 이 가설이 실제 데이터에 얼마나 잘 부합하는지 확인한다.^[4]

CFA는 구조 방정식 모델링을 사용하여 측정 모델을 검증한다. 이 과정에서 요인에 대한 적재량은 관찰된 변수(예: 설문 문항)와 관찰되지 않은 변수(잠재 변수 또는 요인) 간의 관계를 평가하는 데 사용된다.^[4] 구조 방정식 모델링은 측정 오류를 고려할 수 있으며, 최소 자승 추정보다 덜 제한적이다.^[4]

연구자는 가설 모델을 설정하고, 이 모델이 실제 데이터와 얼마나 잘 맞는지 검증한다. 분석 결과는 관찰된 변수가 잠재 변수(요인)에 얼마나 적재되는지, 그리고 잠재 변수 간에 어떤 상관관계가 있는지를 보여준다.^[4]

3. 요인 분석의 통계적 모델

$m$ 개의 확률 변수 집합 $x_1, \dots, x_m$ 이 주어졌고, 각 변수의 모평균은 각각 $\mu_1, \dots, \mu_m$ 이라고 가정한다.

이러한 변수를 $p$ 개의 공통 인자 $f_1, \dots, f_p$ 로 설명하는 선형 모델이 인자 분석법이다.

: $x_j - \mu_j = \lambda_{j1} f_1 + \lambda_{j2} f_2 + \dots + \lambda_{jp} f_p + \varepsilon_j \qquad (j=1, \dots, m)$

여기서 $\lambda_{11}, \lambda_{12}, \dots, \lambda_{mp}$ 는 인자 부하량이라고 불리며, 일반적인 다변량 회귀 분석에서의 편회귀 계수에 해당한다. $\varepsilon_j$ 는 변수 $x_j$ 의 고유 인자라고 불리며, 일반적인 선형 회귀 모델에서의 관측 오차와는 다른 가정이 적용된다^[59].

벡터와 행렬을 사용하여 나타내면^[60],

: $\mathbf{x} - \boldsymbol{\mu} = \boldsymbol{\Lambda} \mathbf{f} + \boldsymbol{\varepsilon}$

가 된다.

공통 인자 $\mathbf{f}$ 와 고유 인자 $\boldsymbol{\varepsilon}$ 에는 다음과 같은 가정이 적용된다.

$\mathbf{f}$ 와 $\boldsymbol{\varepsilon}$ 는 통계적으로 독립
$\mathrm{E}[\mathbf{f}] = \mathbf{0},\quad \mathrm{Var}[\mathbf{f}] = \boldsymbol{\Phi}$
$\mathrm{E}[\boldsymbol{\varepsilon}] = \mathbf{0},\quad \mathrm{Var}[\boldsymbol{\varepsilon}] = \boldsymbol{\Psi}$ ( $\boldsymbol{\Psi}$ 는 대각 행렬; 서로 다른 변수에 대한 고유 인자는 무상관)

이 가정을 사용하여, 관측된 변수

\mathbf{x}

의 분산 공분산 행렬을 고려하면

:

\mathrm{Var}[\mathbf{x}] = \mathrm{E}[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^t] = \boldsymbol{\Sigma} = \boldsymbol{\Lambda} \boldsymbol{\Phi} \boldsymbol{\Lambda}^{t} + \boldsymbol{\Psi}

가 되며, 관측 변수의 분산 공분산 행렬이 파라미터 행렬로 구조화되어 있음을 알 수 있다.

일반적인 파라미터 추정 절차에서는 관측 변수

\mathbf{x}

를 미리 표준화함으로써, 분산 공분산 행렬이 아닌 상관 계수 행렬에 위의 구조화를 적용한다.

3. 1. 정의

Factor analysis^영어에서,

m

개의 관측 변수

x_1, \dots, x_m

가 주어지고, 각 변수의 모평균이

\mu_1, \dots, \mu_m

라고 가정한다. 이때,

p

개의 공통 인자

f_1, \dots, f_p

를 사용하여 다음과 같은 선형 모델로 설명한다.

:

x_j - \mu_j = \lambda_{j1} f_1 + \lambda_{j2} f_2 + \dots + \lambda_{jp} f_p + \varepsilon_j \qquad (j=1, \dots, m)

여기서

\lambda_{11}, \lambda_{12},\dots, \lambda_{m{p-1}}, \lambda_{mp}

는 요인 부하량(factor loading)이라고 하며,

\varepsilon_j \,

는 변수

x_j\,

의 고유 인자(unique factor)라고 불린다.^[59]

벡터와 행렬을 사용하여 나타내면,^[60]

:

\mathbf{x} - \boldsymbol{\mu} = \boldsymbol{\Lambda} \mathbf{f} + \boldsymbol{\varepsilon}

가 된다.

공통 인자

\mathbf{f}

와 고유 인자

\boldsymbol{\varepsilon}

에는 다음과 같은 가정이 적용된다.

$\mathbf{f}$ 와 $\boldsymbol{\varepsilon}$ 는 통계적으로 독립
$\mathrm{E}[\mathbf{f}] = \mathbf{0},\quad \mathrm{Var}[\mathbf{f}] = \boldsymbol{\Phi}$
$\mathrm{E}[\boldsymbol{\varepsilon}] = \mathbf{0},\quad \mathrm{Var}[\boldsymbol{\varepsilon}] = \boldsymbol{\Psi}$ ( $\boldsymbol{\Psi}$ 는 대각 행렬; 서로 다른 변수에 대한 고유 인자는 무상관)

이 가정을 사용하여, 관측된 변수

\mathbf{x}

의 분산 공분산 행렬을 고려하면

:

\mathrm{Var}[\mathbf{x}] = \mathrm{E}[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^t] = \boldsymbol{\Sigma} = \boldsymbol{\Lambda} \boldsymbol{\Phi} \boldsymbol{\Lambda}^{t} + \boldsymbol{\Psi}

가 되며, 관측 변수의 분산 공분산 행렬이 파라미터 행렬로 구조화되어 있음을 알 수 있다.

3. 2. 성질

요인 분석 모델은 회전 부정성이라는 성질을 갖는다. 이는 적절한 행렬

\mathbf{T}

를 사용하여 요인 부하 행렬

\tilde{\boldsymbol{\Lambda}}

과 공통 인자

\tilde{\mathbf{f}}

를 변환하여도, 통계적 적합도를 바꾸지 않고 요인 분석 모델을 만족시키는 해의 부정성을 의미한다.^[3] 이는 다음과 같이 표현할 수 있다.

:

\begin{align}\mathbf{x} - \boldsymbol{\mu} &= \boldsymbol{\Lambda} \mathbf{f} + \boldsymbol{\varepsilon} \\&= \boldsymbol{\Lambda} \mathbf{T}^{-1} \mathbf{T} \mathbf{f} + \boldsymbol{\varepsilon} \\&= \tilde{\boldsymbol{\Lambda}} \tilde{\mathbf{f}} + \boldsymbol{\varepsilon} \\\end{align}

이러한 회전 부정성으로 인해 요인 해석에 어려움이 발생할 수 있다. 예를 들어, 2차원 요인 분석에서 두 가지 유형의 지능이 서로 상관관계가 없다는 것을 미리 알지 못하면, 두 요인을 서로 다른 유형의 지능으로 명확하게 해석하기 어렵다. 심지어 상관관계가 없더라도, 외부 정보 없이는 어떤 요인이 언어 지능에 해당하고 어떤 요인이 수학 지능에 해당하는지, 또는 두 지능의 선형 조합인지 판단하기 어렵다.^[3]

4. 요인 분석의 실제 적용

요인 분석은 다양한 분야에서 활용된다.

심리 측정학: 찰스 스피어만은 요인 분석을 심리학에 처음으로 적용한 학자 중 한 명으로, 학교 학생들의 다양한 과목 점수 간 상관관계를 통해 g 요인을 제안했다.^[39]^[40]^[41] 루이스 써스톤은 다중 요인 분석의 초기 개발에 기여했으며, 레이먼드 캐텔은 써스톤의 이론을 발전시켰다. 요인 분석은 지능 연구 외에도 성격, 태도, 신념 등 다양한 심리적 특성을 측정하고 도구의 타당성을 평가하는 데 사용된다.
마케팅: 소비자가 제품을 평가할 때 사용하는 주요 속성을 파악하고, 지각 맵을 구성하여 제품 포지셔닝 전략을 수립하는 데 활용된다.^[52] 정량적 마케팅 조사를 통해 수집된 데이터를 분석하여 여러 속성을 중요 차원으로 축소하고, 객관적/주관적 속성을 모두 활용하여 잠재 차원이나 개념을 발견할 수 있다.^[52]
사회 과학: 사회 현상, 정치적 태도, 문화적 차이 등을 연구하는 데 사용된다. 여러 변수를 단일 요인으로 결합하거나 서로 관련된 변수 그룹을 식별하는 데 활용되며, 문화 차원 추출 등 문화 간 연구에 자주 사용된다. 잉글하트와 뵐젤의 세계 문화 지도가 대표적인 시각화 자료이다.^[25] 정치 시스템 비교 및 유형학적 범주를 만들거나, 내부 정치 효능감을 측정하는 연구에도 활용되었다.^[50]^[51]
자연 과학: 지구화학, 수문지화학^[53], 천체물리학, 생태학, 분자 생물학 등 다양한 분야에서 사용된다. 지하수 수질 관리에서 오염원을 파악하거나,^[54] 지구화학에서 광물 연관성을 찾고,^[55] DNA 마이크로어레이 데이터를 요약하는 데 사용될 수 있다.^[56]

4. 1. 심리 측정학

찰스 스피어만은 요인 분석을 심리학에 처음으로 적용한 학자 중 한 명이다.^[39]^[40] 그는 학교 학생들의 다양한 과목 점수들이 양의 상관관계를 보인다는 것을 발견하고, 이를 통해 단일 일반 정신 능력, 즉 '''g 요인'''이 인간의 인지 수행 능력을 지배하고 형성한다고 가정했다.^[41]

루이스 써스톤은 다중 요인 분석의 초기 개발에 기여했으며, 공통성, 유일성, 회전과 같은 주요 개념들을 도입했다.^[45] 그는 "단순 구조"를 옹호하고 이를 위한 회전 방법을 개발했다.^[39]

레이먼드 캐텔은 써스톤의 다중 요인 이론을 사용하여 지능을 설명했으며, 스크리 검사와 유사성 계수를 개발하는 등 요인 분석과 심리 측정학의 발전에 기여했다.

요인 분석은 지능 연구 외에도 성격, 태도, 신념 등 다양한 심리적 특성을 측정하는 데 사용된다. 또한, 요인 분석은 도구가 실제로 가설적 요인을 측정하는지 여부를 확인하여 도구의 타당성을 평가하는 데에도 활용될 수 있다.

4. 2. 마케팅

인자 분석은 소비자가 제품을 평가할 때 사용하는 주요 속성을 파악하고, 이를 바탕으로 지각 맵을 구성하는 등 제품 포지셔닝 전략을 수립하는 데 활용된다.^[52]

정량적 마케팅 조사 기법(예: 통계 설문 조사)을 사용하여 잠재 고객으로부터 제품의 여러 속성에 대한 평가 데이터를 수집한다.^[52] 수집된 데이터는 R, SPSS 등 통계 프로그램을 통해 분석되어 여러 속성을 몇 가지 중요한 차원으로 축소한다.^[52] 이렇게 축소된 차원, 즉 요인을 기반으로 지각 맵 등을 구성한다.^[52]

인자 분석은 객관적인 속성과 주관적인 속성을 모두 사용할 수 있으며, 주관적인 속성은 점수로 변환하여 분석에 활용할 수 있다.^[52] 또한, 직접적인 분석으로는 알 수 없는 잠재적인 차원이나 개념을 발견할 수 있다는 장점이 있다.^[52] 이는 마케팅 조사에서 소비자의 선호도와 제품 평가를 이해하는 데 유용하게 사용될 수 있다.

4. 3. 사회 과학

요인 분석은 사회 현상, 정치적 태도, 문화적 차이 등을 연구하는 데 사용된다.

여러 변수를 단일 요인으로 결합하여 변수의 수를 줄일 수 있다. 예를 들어 달리기, 공 던지기, 배팅, 점프 및 역도 수행 능력을 일반적인 운동 능력과 같은 단일 요인으로 결합할 수 있다.
서로 관련된 변수 그룹을 식별하여 서로 어떻게 관련되어 있는지 확인할 수 있다. 예를 들어 캐롤은 그의 3계층 이론을 구축하기 위해 요인 분석을 사용했다.
문화 간 연구에서 자주 사용되는 기법이다. 이는 문화 차원을 추출하는 데 사용된다. 가장 잘 알려진 문화 차원 모델은 헤이르트 호프스테데, 로널드 잉글하트, 크리스찬 뵐젤, 샬롬 슈워츠 그리고 미하엘 민코프에 의해 개발되었다. 인기 있는 시각화 자료로는 잉글하트와 뵐젤의 세계 문화 지도가 있다.^[25]
1965년 초 연구에서 전 세계의 정치 시스템을 요인 분석을 통해 조사하여 관련 이론 모델과 연구를 구축하고, 정치 시스템을 비교하며, 유형학적 범주를 만들었다.^[50]
다른 정치학자들은 1988년 전국선거연구에 추가된 네 가지 새로운 질문을 사용하여 내부 정치 효능감을 측정하는 것을 연구했다. 요인 분석은 이 항목들이 외부 효능감과 정치적 신뢰와는 구별되는 단일 개념을 측정하고, 이 네 가지 질문이 그 시점까지 내부 정치 효능감을 가장 잘 측정한다는 것을 밝히는 데 사용되었다.^[51]

4. 4. 자연 과학

요인 분석은 지구화학, 수문지화학^[53], 천체물리학, 생태학, 분자 생물학 등 다양한 분야에서 널리 사용된다.

지하수 수질 관리에서, 다양한 화학적 매개변수의 공간적 분포를 서로 다른 가능한 오염원과 관련시키는 것은 중요하다. 예를 들어, 황화물 광산은 높은 산성도, 용존 황산염 및 전이 금속과 관련될 가능성이 높다. 이러한 특징은 R-모드 요인 분석을 통해 요인으로 식별할 수 있으며, 가능한 오염원의 위치는 요인 점수를 등고선으로 나타내어 추정할 수 있다.^[54]

지구화학에서, 서로 다른 요인은 서로 다른 광물 연관성, 즉 광물화와 일치할 수 있다.^[55] Affymetrix GeneChips의 프로브 수준에서 고밀도 올리고뉴클레오티드 DNA 마이크로어레이 데이터를 요약하는 데도 요인 분석이 사용될 수 있다. 이 경우 잠재 변수는 샘플 내 RNA 농도에 해당한다.^[56]

5. 요인 분석과 주성분 분석(PCA)의 비교

요인 분석과 주성분 분석(PCA)은 모두 데이터 차원 축소 기법이지만, 목적과 방법론에서 차이가 있다.^[26]

주성분 분석(PCA)과 탐색적 요인 분석(EFA)은 때때로 동의어처럼 사용되기도 하지만, 엄밀히 말하면 이 둘은 서로 다른 기법이다.^[34]^[35] 요인 분석은 관찰된 변수들 간의 공통 분산을 설명하는 잠재 요인을 추출하는 반면, PCA는 관찰된 변수들의 총 분산을 최대한 설명하는 주성분을 찾는 것이 목적이다.^[26]

요인 분석의 매개변수와 변수는 기하학적으로 해석될 수 있다. 데이터(

z_{ai}

), 요인(

F_{pi}

), 오차(

\varepsilon_{ai}

)는 N차원 유클리드 공간(표본 공간)의 벡터로 볼 수 있으며, 각각

\mathbf{z}_a

,

\mathbf{F}_p

,

\boldsymbol{\varepsilon}_a

로 표시된다.

Brown (2009)은 변수 간 관계에 대한 이론적 아이디어가 존재할 경우 요인 분석을, 데이터 패턴 탐색이 목적이라면 PCA를 사용할 것을 권장한다.^[38] Suhr (2009)는 PCA와 요인 분석(FA)의 차이점을 다음과 같이 요약했다:^[35]

	PCA	FA
관찰 변수의 최대 분산 설명 \| 데이터의 공통 분산 설명
1 삽입 \| 고유 요인으로 조정
성분 축까지의 수직 거리 제곱합 최소화 \| 관찰 변수에 영향을 미치는 요인 추정
고유벡터로 가중된 관찰 변수의 선형 조합 \| 관찰 변수는 기본 요인과 고유 요인의 선형 조합
성분 해석 불가 \| 정확한 모델 사양 하에 기본 구조 해석 가능

5. 1. 목적

요인 분석의 목적은 관찰된 변수들 간의 공통 분산을 설명하는 잠재 요인을 추출하는 것이다. 반면 주성분 분석 (PCA)은 관찰된 변수들의 총 분산을 최대한 설명하는 주성분을 찾는 것이 목적이다.^[26] 즉, 요인 분석은 변수들 간의 상관 관계를 설명하는 근본적인 요인을 찾는 데 초점을 맞추는 반면, PCA는 데이터의 분산을 최대한 보존하는 성분을 찾는 데 초점을 맞춘다.

두 기술은 데이터의 차원을 줄이는 것을 목표로 한다는 공통점이 있지만, 접근 방식에는 차이가 있다. 요인 분석은 관찰된 변수에서 특정 관찰할 수 없는 요인을 식별하는 것을 목표로 명확하게 설계되었지만, PCA는 이 목표를 직접적으로 다루지 않는다.^[27] 탐색적 분석의 관점에서 PCA의 고유값은 오차 분산으로 인해 부풀려진 성분 적재량으로 간주되기도 한다.^[28]^[29]^[30]^[31]^[32]^[33]

요인 분석은 "근본적인 인과 구조에 대한 가정을 다루며", 관찰된 변수의 공분산이 하나 이상의 잠재 변수(요인)의 존재에 기인한다고 가정한다.^[36] 반면 PCA는 이러한 인과 관계를 가정하거나 의존하지 않는다. 따라서 연구 목표에 따라 두 기술 중 하나가 더 적합할 수 있다.

요인 분석은 시스템에 대한 적절한 이해가 있어 초기 모델을 잘 설정할 수 있는 경우에 성공적으로 사용될 수 있다. 반면 PCA는 공분산 행렬의 형태에 대한 가정 없이 원본 데이터에 대한 수학적 변환을 사용하며, 원본 변수의 선형 조합을 결정하고 데이터 세트를 요약하는 데 유용한 몇 가지 조합을 선택하는 것을 목표로 한다.^[37]

Brown (2009)은 변수 간의 관계에 대한 이론적 아이디어가 존재할 경우 요인 분석을, 데이터 패턴 탐색이 목표라면 PCA를 사용할 것을 권장한다.^[38]

5. 2. 방법론

요인 분석은 공통 요인 모델을 가정하고 오차 항을 고려한다는 점에서 주성분 분석(PCA)와 다르다.^[26] PCA는 별도의 모델 가정 없이 데이터의 선형 변환을 통해 주성분을 추출한다.^[27]

요인 분석의 매개변수와 변수는 기하학적으로 해석할 수 있다. 데이터(

z_{ai}

), 요인(

F_{pi}

), 오차(

\varepsilon_{ai}

)는 N차원 유클리드 공간(표본 공간)의 벡터로 볼 수 있으며, 각각

\mathbf{z}_a

,

\mathbf{F}_p

,

\boldsymbol{\varepsilon}_a

로 표시된다. 데이터가 표준화되어 있기 때문에 데이터 벡터의 길이는 단위 길이(

||\mathbf{z}_a||=1

)이다. 요인 벡터는 이 공간에서 k차원 선형 부분 공간(초평면)을 정의하며, 데이터 벡터는 이 부분 공간에 직교 투영된다.

요인 분석의 목표는 데이터에 "가장 적합한" 초평면을 찾는 것이다. 이때 초평면을 정의하는 요인 벡터는 독립적이고 정규 직교(

\mathbf{F}_p\cdot \mathbf{F}_q=\delta_{pq}

)로 지정할 수 있다. 적절한 요인 집합을 찾은 후에는 초평면 내에서 임의로 회전할 수도 있다.

데이터의 상관 행렬은

r_{ab}=\mathbf{z}_a\cdot\mathbf{z}_b

로 주어지며, 두 데이터 벡터

\mathbf{z}_a

와

\mathbf{z}_b

사이의 각도의 코사인으로 해석할 수 있다. "축소된 상관 행렬"은

\hat{r}_{ab}=\hat{\mathbf{z}}_a\cdot\hat{\mathbf{z}}_b

로 정의된다. 요인 분석의 목표는 축소된 상관 행렬이 상관 행렬을 가능한 한 가깝게 재현하도록 적합한 초평면을 선택하는 것이다.

공통성은

{h_a}^2=||\hat{\mathbf{z}}_a||^2= \sum_p {\ell_{ap}}^2

로 정의되며, 축소된 상관 행렬의 대각선 요소이다. 공통성의 값이 크면 적합한 초평면이 상관 행렬을 상당히 정확하게 재현하고 있음을 나타낸다.

탐색적 요인 분석(EFA)와 주성분 분석(PCA)는 때때로 동의어로 취급되지만, 엄밀히 말하면 다르다.^[34]^[35] 요인 분석은 관찰된 변수의 공분산이 잠재 변수(요인)의 영향을 받는다고 가정하는 반면, PCA는 이러한 인과 관계를 가정하지 않는다.^[36]

Fabrigar et al. (1999)는 PCA와 요인 분석이 동일하지 않은 몇 가지 이유를 제시했다.^[34] 예를 들어, 공통성이 낮은 경우 두 기술은 다른 결과를 생성하며, 요인 분석에서 발생할 수 있는 '헤이우드 케이스'는 PCA에서는 발생하지 않는다.

Brown (2009)은 변수 간 관계에 대한 이론적 아이디어가 존재할 경우 요인 분석을, 데이터 패턴 탐색이 목표라면 PCA를 사용할 것을 권장한다.^[38]

Suhr (2009)는 PCA와 FA의 차이점을 다음과 같이 요약했다:^[35]

	PCA	FA
관찰 변수의 최대 분산 설명 \| 데이터의 공통 분산 설명
1 삽입 \| 고유 요인으로 조정
성분 축까지의 수직 거리 제곱합 최소화 \| 관찰 변수에 영향을 미치는 요인 추정
고유벡터로 가중된 관찰 변수의 선형 조합 \| 관찰 변수는 기본 요인과 고유 요인의 선형 조합
성분 해석 불가 \| 정확한 모델 사양 하에 기본 구조 해석 가능

5. 3. 논쟁

주성분 분석(PCA)과 탐색적 요인 분석(EFA)은 데이터 차원을 줄이는 기법이지만, 그 목적과 접근 방식에 차이가 있어 논쟁이 존재한다.^[26]

일부 연구자들은 PCA가 요인 분석보다 계산이 빠르고 더 적은 자원을 필요로 한다고 주장한다.^[34] 그러나 Fabrigar et al. (1999)은 현대 컴퓨터 환경에서는 이러한 주장이 큰 의미가 없다고 반박한다.^[34]

PCA와 요인 분석이 유사한 결과를 낼 수 있다는 주장도 있지만, 공통성이 낮은 경우 (예: 0.4) 두 기법은 상이한 결과를 도출한다.^[34] Fabrigar et al. (1999)은 데이터가 공통 요인 모델의 가정을 충족하는 경우 PCA의 결과는 부정확할 수 있다고 지적한다.^[34]

요인 분석에서는 측정된 변수의 분산 100% 이상이 모델에 의해 설명되는 것으로 추정되는 '헤이우드 케이스'가 발생할 수 있다. Fabrigar et al. (1999)은 이러한 경우가 잘못 지정된 모델이나 공통 요인 모델 위반을 나타내는 유익한 정보라고 주장하는 반면, PCA에서는 이러한 문제가 드러나지 않을 수 있다.^[34]

PCA를 통해 연구자들은 특정 구성 요소에 대한 개인의 점수와 같은 추가 정보를 얻을 수 있지만, 요인 분석의 목표인 측정 변수 간 상관 관계 구조를 파악하는 데는 이 정보가 필수적이지 않으므로 PCA의 이점이 상쇄된다.^[34]

Brown (2009)은 PCA는 상관 행렬의 대각선에 1을 넣어 모든 분산(고유 분산, 공통 분산, 오차 분산)을 포함하는 반면, EFA는 공통성을 대각선에 넣어 변수 간 공통 분산만을 고려한다는 점을 강조한다.^[38] 따라서 변수 간 관계에 대한 이론적 아이디어가 있다면 요인 분석을, 데이터 패턴 탐색이 목적이라면 PCA를 사용하는 것이 바람직하다고 권고한다.^[38]

Suhr (2009)는 PCA와 FA의 차이점을 다음과 같이 요약한다.^[35]

주성분 분석 (PCA)	요인 분석 (FA)
관찰 변수의 최대 분산 설명	데이터의 공통 분산 설명
상관 행렬 대각선에 1 삽입	고유 요인으로 상관 행렬 대각선 조정
성분 축까지의 수직 거리 제곱합 최소화	관찰 변수 반응에 영향을 미치는 요인 추정
고유벡터로 가중된 관찰 변수의 선형 조합으로 성분 점수 표현	관찰 변수를 기본 요인과 고유 요인의 선형 조합으로 표현
생성된 성분 해석 불가 (기본 ‘구조’ 미표현)	정확한 모델 사양 시 기본 구조 레이블 지정 및 해석 용이

6. 요인 분석 소프트웨어

요인 분석은 1980년대부터 여러 통계 분석 프로그램에서 구현되어 왔다.

JMP
Mplus
파이썬: scikit-learn 모듈^[57]
R (기본 함수 ''factanal'' 또는 '''psych''' 패키지의 ''fa'' 함수 사용). 회전은 ''GPArotation'' R 패키지에서 구현된다.
SAS (PROC FACTOR 또는 PROC CALIS 사용)
SPSS^[58]
Stata
Factor [https://psico.fcep.urv.cat/utilitats/factor/Download.html] - 로비라 이 비르힐리 대학교에서 개발한 무료 요인 분석 소프트웨어

R은 통계 분석 도구로, 인자 분석 등 다변량 분석을 표준으로 수행할 수 있는 프리웨어이다. 시각화 기능이 뛰어나며, 멀티플랫폼을 지원한다. 다른 통계 소프트웨어 및 Excel 파일 가져오기, ODBC 연결도 가능하다. FDA의 신청에도 사용이 인정되었으며, CRAN이라는 시스템을 통해 전 세계의 방대한 애플리케이션을 무상으로 사용할 수 있다.

참조

_[1] 서적 Principals of Modern Psychological Measurement Erlbaum
_[2] 서적 Measurement Theory and Applications for the Social Sciences The Guilford Press
_[3] 서적 Modern Factor Analysis University of Chicago Press
_[4] 서적 Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Wolters Klower Health, Lippincott Williams & Wilkins
_[5] 논문 Uncover cooperative gene regulations by microRNAs and transcription factors in glioblastoma using a nonnegative hybrid factor model http://www.cmsworldw[...]
_[6] 논문 Cross Entropy Approximation of Structured Gaussian Covariance Matrices http://ntur.lib.ntu.[...]
_[7] 논문 Comparison of five rules for determining the number of components to retain. 1986
_[8] 논문 A rationale and test for the number of factors in factor analysis 1965-06
_[9] arXiv Permutation methods for factor analysis and PCA 2017-10-02
_[10] 논문 Determining the Number of Factors to Retain in EFA: An easy-to-use computer program for carrying out Parallel Analysis http://pareonline.ne[...]
_[11] 논문 Tran, U. S., & Formann, A. K. (2009). Performance of parallel analysis in retrieving unidimensionality in the presence of binary data. ''Educational and Psychological Measurement, 69,'' 50-61.
_[12] 논문 Determining the number of components from the matrix of partial correlations
_[13] 논문 Courtney, M. G. R. (2013). Determining the number of factors to retain in EFA: Using the SPSS R-Menu v2.0 to make more judicious estimations. Practical Assessment, Research and Evaluation, 18(8). Available online: http://pareonline.net/getvn.asp?v=18&n=8
_[14] 논문 Determining the number of factors to retain in an exploratory factor analysis using comparison data of known factorial structure
_[15] 논문 Garrido, L. E., & Abad, F. J., & Ponsoda, V. (2012). A new look at Horn's parallel analysis with ordinal variables. Psychological Methods. Advance online publication.
_[16] 논문 Determining the number of factors: the example of the NEO-PI-R http://www.personali[...] 2007
_[17] 웹사이트 psych: Procedures for Psychological, Psychometric, and PersonalityResearch https://cran.r-proje[...] 2020-01-08
_[18] 논문 The Application of Electronic Computers to Factor Analysis 1960-04
_[19] 서적 Statistical and Methodological Myths and Urban Legends: Doctrine, Verity and Fable in the Organizational and Social Sciences Taylor & Francis
_[20] 논문 Evaluating a proposed modification of the Guttman rule for determining the number of factors in an exploratory factor analysis
_[21] 논문 Estimating confidence intervals for eigenvalues in exploratory factor analysis
_[22] 논문 The scree test for the number of factors
_[23] 서적 Introduction to Machine Learning
_[24] 웹사이트 Factor rotation methods https://stats.stacke[...] 2022-11-07
_[25] 논문 Two-Dimensional Models of Cultural Differences: Statistical and Theoretical Analysis https://backend.orbi[...] 2022
_[26] 서적 Analysis of Multivariate Social Science Data Taylor & Francis
_[27] 서적 Jolliffe I.T. ''Principal Component Analysis'', Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus.
_[28] 서적 Cattell, R. B. (1952). ''Factor analysis''. New York: Harper.
_[29] 서적 Fruchter, B. (1954). ''Introduction to Factor Analysis''. Van Nostrand.
_[30] 서적 Cattell, R. B. (1978). ''Use of Factor Analysis in Behavioral and Life Sciences''. New York: Plenum.
_[31] 서적 Child, D. (2006). ''The Essentials of Factor Analysis, 3rd edition''. Bloomsbury Academic Press.
_[32] 서적 Gorsuch, R. L. (1983). ''Factor Analysis, 2nd edition''. Hillsdale, NJ: Erlbaum.
_[33] 서적 McDonald, R. P. (1985). ''Factor Analysis and Related Methods''. Hillsdale, NJ: Erlbaum.
_[34] 웹사이트 Evaluating the use of exploratory factor analysis in psychological research. http://www.statpower[...] Psychological Methods
_[35] 웹사이트 Principal component analysis vs. exploratory factor analysis http://www2.sas.com/[...] SUGI 30 Proceedings 2012-04-05
_[36] 웹사이트 Principal Components Analysis http://support.sas.c[...]
_[37] 논문 Examining Large Databases: A Chemometric Approach Using Principal Component Analysis 1991
_[38] 웹사이트 Principal components analysis and exploratory factor analysis – Definitions, differences and choices. http://jalt.org/test[...] Shiken: JALT Testing & Evaluation SIG Newsletter 2009-01
_[39] 서적 Foundations of Factor Analysis. Second Edition CRC Press
_[40] 논문 General intelligence objectively determined and measured 1904
_[41] 논문 Spearman and the origin and development of factor analysis 1995
_[42] 논문 Multiple factor analysis 1931
_[43] 논문 The Vectors of Mind 1934
_[44] 서적 The Vectors of Mind. Multiple-Factor Analysis for the Isolation of Primary Traits. University of Chicago Press
_[45] 서적 Factor Analysis at 100 Lawrence Erlbaum Associates
_[46] 서적 Q Methodology SAGE Publications 2013-06-21
_[47] 논문 Technique of Factor Analysis 1935-08
_[48] 서적 Metaphors of Mind: Conceptions of the Nature of Intelligence Cambridge University Press
_[49] 웹사이트 Factor Analysis http://comp9.psych.c[...] 2004-07-22
_[50] 논문 Dimensions of political systems: Factor analysis of a cross-polity survey 1965
_[51] 논문 Measuring Internal Political Efficacy in the 1988 National Election Study https://doi.org/10.2[...] 1991-12
_[52] 문서 A comparison of distribution-free and non-distribution free methods in factor analysis. Paper presented at Southwestern Educational Research Association (SERA) Conference 2012, New Orleans, LA (ED529153). 2012
_[53] 논문 Characterisation of groundwater contamination using factor analysis 1996-12
_[54] 논문 Factor analysis as a tool in groundwater quality management: two southern African case studies
_[55] 논문 Trace-element and U—Pb isotope compositions of pyrite types in the Proterozoic Black Reef, Transvaal Sequence, South Africa: Implications on genesis and age
_[56] 논문 A new summarization method for affymetrix probe level data
_[57] 웹사이트 sklearn.decomposition.FactorAnalysis — scikit-learn 0.23.2 documentation https://scikit-learn[...]
_[58] 논문 A comparison of factor analysis programs in SPSS, BMDP, and SAS 1983-06
_[59] 문서 独自因子を、特殊因子と観測誤差の和として説明することもできるが、通常のパラメータ推定仮定において特殊因子と観測誤差の分離は難しいため、ここでは独自因子とだけ述べる。
_[60] 문서 因子分析法には変量モデル、母数モデル、記述モデルの3種類が存在するが、ここでは変量モデルのみ述べる。

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

	PCA	FA
관찰 변수의 최대 분산 설명 \| 데이터의 공통 분산 설명
1 삽입 \| 고유 요인으로 조정
성분 축까지의 수직 거리 제곱합 최소화 \| 관찰 변수에 영향을 미치는 요인 추정
고유벡터로 가중된 관찰 변수의 선형 조합 \| 관찰 변수는 기본 요인과 고유 요인의 선형 조합
성분 해석 불가 \| 정확한 모델 사양 하에 기본 구조 해석 가능

	PCA	FA
관찰 변수의 최대 분산 설명 \| 데이터의 공통 분산 설명
1 삽입 \| 고유 요인으로 조정
성분 축까지의 수직 거리 제곱합 최소화 \| 관찰 변수에 영향을 미치는 요인 추정
고유벡터로 가중된 관찰 변수의 선형 조합 \| 관찰 변수는 기본 요인과 고유 요인의 선형 조합
성분 해석 불가 \| 정확한 모델 사양 하에 기본 구조 해석 가능