맨위로가기

대응 분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

대응 분석은 주성분 분석과 유사하게 직교 성분을 생성하여 데이터 표의 행과 열 간의 관계를 분석하는 통계적 방법이다. 데이터 행렬을 가중치를 사용하여 변환하고, 특잇값 분해를 통해 표준화된 잔차 행렬을 분해하여 관성을 계산하고, 주 좌표와 표준 좌표를 구한다. 결과는 스크리 플롯과 바이플롯으로 시각화되며, 데이터의 변동성과 변수 간의 관계를 파악하는 데 사용된다. 대응 분석은 다양한 확장 및 응용 분야를 가지며, 여러 통계 소프트웨어 및 프로그래밍 언어에서 구현할 수 있다.

더 읽어볼만한 페이지

  • 차원 축소 - 독립 성분 분석
    독립 성분 분석(ICA)은 데이터가 통계적으로 독립적인 성분들의 혼합이라는 가정하에, 데이터에서 독립적인 성분들을 찾아내는 통계적 계산 방법으로, 다양한 알고리즘 개발을 거쳐 블라인드 신호 분리, 뇌파 분석, 얼굴 인식 등 여러 분야에 응용된다.
  • 차원 축소 - 특징 선택
    특징 선택은 머신러닝에서 모델 성능 향상과 해석력 증진을 위해 데이터에서 가장 관련성 높은 특징들의 부분 집합을 선택하는 과정으로, 통계적 방법에서 시작하여 필터 방법, 래퍼 방법, 임베디드 방법 등 다양한 알고리즘과 메타휴리스틱 알고리즘을 활용한다.
대응 분석
개요
유형통계적 기법
분야데이터 마이닝, 기계 학습, 패턴 인식, 정보 검색
목적범주형 변수 간의 관계 시각화 및 분석
상세 정보
입력 데이터분할표 (빈도 테이블)
출력행 및 열 범주에 대한 시각적 표현 (산점도)
범주 간의 관계 강도 측정
관련 기법주성분 분석 (PCA)
다차원 척도법 (MDS)
특이값 분해 (SVD)
응용 분야
마케팅시장 조사, 고객 세분화, 브랜드 포지셔닝
생태학종 분포 분석, 환경 요인과 종의 관계 분석
텍스트 마이닝문서 클러스터링, 단어 간의 의미 관계 분석
사회 과학여론 조사 분석, 사회 네트워크 분석
장점
시각적 표현범주 간의 관계를 직관적으로 파악 가능
차원 축소고차원 데이터를 저차원으로 표현하여 분석 용이
다양한 데이터 유형 지원명목형, 순서형 데이터를 모두 분석 가능
단점
해석의 주관성시각적 결과 해석에 주관이 개입될 수 있음
데이터 준비 필요입력 데이터 형태에 따라 전처리 과정이 필요할 수 있음
비선형 관계 표현의 한계복잡한 비선형 관계는 정확하게 표현하기 어려울 수 있음

2. 상세

주성분 분석과 유사하게 대응 분석은 직교 성분(축)을 생성하고, 표의 각 행에 대해 요인 점수라고도 불리는 일련의 점수를 생성한다. 대응 분석은 ''m''개의 행과 ''n''개의 열을 가진 행렬 ''C''로 표현되는 데이터 표에 적용된다.

대응 분석은 행렬 ''C''의 값을 변환하고, 행과 열에 대한 가중치(질량)를 계산하며, 표준화 잔차 행렬을 통해 데이터의 연관성을 파악한다. 이 과정에서 행렬 대수에 대한 지식이 필요하다.

2. 1. 전처리

알고리즘의 핵심 계산 단계로 진행하기 전에, 행렬 ''C''의 값을 변환해야 한다.[10] 먼저 열과 행에 대한 가중치(때로는 '질량'이라고도 함)를 계산하는데,[7][11] 행 및 열 가중치는 각각 행 및 열 벡터로 주어진다.

:w_m = \frac{1}{n_C} C \mathbf{1}, \quad w_n = \frac{1}{n_C}\mathbf{1}^T C.

여기서 n_C = \sum_{i=1}^n \sum_{j=1}^m C_{ij} 는 행렬 ''C''의 모든 셀 값의 합(즉, 'C'의 합)이며, \mathbf{1}은 적절한 차원을 가진 1의 열 벡터이다.

간단히 말하면, w_m은 'C'의 행 합계를 'C'의 합계로 나눈 벡터이고, w_n은 'C'의 열 합계를 'C'의 합계로 나눈 벡터이다.

가중치는 대각 행렬로 변환된다.

:W_m = \operatorname{diag}(1/\sqrt{w_m})

그리고

:W_n = \operatorname{diag}(1/\sqrt{w_n})

여기서 W_n의 대각 요소는 1/\sqrt{w_n}이고, W_m의 대각 요소는 1/\sqrt{w_m}이다. 즉, 벡터 요소는 질량의 제곱근의 역수이다. 비대각 요소는 모두 0이다.

다음으로, C를 합계로 나누어 행렬 P를 계산한다.

:P = \frac{1}{n_C} C.

행렬 P는 데이터 행렬(분할표 또는 이진표)을 부분으로 변환한 것으로, 각 셀 값은 전체 표의 합계에 대한 셀 부분이다.

마지막으로, 행렬 곱셈을 통해 때때로 '표준화 잔차' 행렬이라고도 하는 행렬 ''S''를 계산한다.[10]

:S = W_m(P - w_m w_n)W_n

벡터 w_mw_n외적으로 결합되어 P와 동일한 차원의 행렬을 생성한다. 행렬 \operatorname{outer}(w_m, w_n)는 행렬 ''P''에서 빼고, 결과 행렬은 대각 행렬 W_mW_n에 의해 스케일링(가중치 부여)된다. 결과 행렬에 대각 행렬을 곱하는 것은 각각 W_m 또는 W_n의 대각선의 i번째 요소로 해당 행렬의 i번째 행(또는 열)을 곱하는 것과 같다.[12]

벡터 w_mw_n은 각각 행 및 열 질량, 즉 행과 열에 대한 주변 확률이다. 행렬 P에서 행렬 \operatorname{outer}(w_m, w_n)을 빼는 것은 데이터를 이중 중심화하는 행렬 대수 버전이다. 이 차이에 대각 가중 행렬을 곱하면 벡터 공간의 원점에서 가중 편차를 포함하는 행렬이 생성된다. 이 원점은 행렬 \operatorname{outer}(w_m, w_n)에 의해 정의된다.

행렬 \operatorname{outer}(w_m, w_n)카이제곱 검정에서 ''기대 빈도'' 행렬과 동일하다. 따라서 ''S''는 해당 검정에 사용된 독립 모델과 계산적으로 관련이 있다.

2. 2. 직교 성분

표준화 잔차 행렬 S특잇값 분해를 통해 다음과 같이 분해된다.[10]

:S = U\Sigma V^* \,

여기서 UVS의 왼쪽 및 오른쪽 특이 벡터이고, \Sigma는 대각선에 ''S''의 특잇값 \sigma_i를 갖는 정사각 대각 행렬이다. \Sigma의 차원은 p \leq (\min(m,n)-1)이므로, U는 m×p 차원이고 V는 n×p 차원이다. UV는 정규 직교 벡터이며 다음을 만족한다.

:U^* U = V^* V = I.

즉, C와 ''S''에 포함된 다변량 정보는 두 개의 (좌표) 행렬 UV와 대각 (스케일링) 행렬 \Sigma에 분산된다. 이들이 정의하는 벡터 공간은 두 값, 즉 행의 수와 열의 수 중 작은 값에서 1을 뺀 값인 p를 차원 수로 갖는다.

2. 3. 관성

대응 분석은 (공)분산을 분해한다고 할 수 있으며, 그 성공 척도는 처음 몇 개의 PCA 축이 커버하는 (공)분산의 양으로 측정된다. 대응분석에서는 고윳값 대신 "관성"이라고 하는 가중 (공)분산으로 작동한다.[13] 제곱된 특이값의 합은 데이터 테이블의 "총 관성" \Iota이며, 다음과 같이 계산된다.

:\Iota = \sum_{i=1}^p \sigma_i^2.

데이터 테이블의 "총 관성" \Iota는 'S'에서 직접 계산할 수도 있다.

:\Iota = \sum_{i=1}^n \sum_{j=1}^m s_{ij}^2.

i번째 특이 벡터 집합이 커버하는 관성의 양은 \iota_i, 즉 "주 관성"이다. 처음 몇 개의 특이 벡터가 커버하는 관성의 비율, 즉 총 관성에 비해 주 관성의 합이 클수록 대응분석이 더 성공적이다.[13] 따라서 모든 주 관성 값은 총 관성의 비율 \epsilon_i로 표현된다.

:\epsilon_i = \sigma_i^2 / \sum_{i=1}^p \sigma_i^2

그리고 스크리 그림의 형태로 제시된다. 스크리 그림은 모든 주 관성 부분 \epsilon_i막대 그래프이다.

2. 4. 좌표

대응 분석에서는 주 좌표와 표준 좌표라는 두 가지 유형의 좌표를 사용한다.[10] 주 좌표는 행 또는 열 간의 카이제곱 거리를 보존하는 좌표이다. 행렬 ''C''의 행에 대한 주 좌표는 다음과 같이 계산된다.

:F_m = W_m U \Sigma

열에 대한 주 좌표는 다음과 같다.

:F_n = W_n V \Sigma.

주 좌표는 특이값을 사용하여 계산되므로 원래 표의 행 또는 열 간의 퍼짐에 대한 정보를 포함한다. 주 좌표에서 개체 간의 유클리드 거리를 계산하면 해당 카이제곱 거리와 동일한 값이 나온다.[10]

표준 좌표는 각 벡터가 평균 0과 분산 1을 갖도록 표준화된 좌표이다.[16] 행에 대한 표준 좌표는 다음과 같다.

:G_m = W_m U

열에 대한 표준 좌표는 다음과 같다.

:G_n = W_n V

생태학에서 스케일링 1[15] 바이플롯은 행이 주 좌표에 있고 열이 표준 좌표에 있음을 의미하는 반면, 스케일링 2는 행이 표준 좌표에 있고 열이 주 좌표에 있음을 의미한다.

3. 결과의 시각적 표현

대응 분석(CA)의 결과는 일반적으로 처음 몇 개의 주성분에 대한 스크리 플롯과 바이플롯 형태로 시각화된다. 스크리 플롯은 주 관성 값의 요약 성공 여부를 평가하기 위해 표시된다.

바이플롯은 행과 열 변수에 대한 좌표를 함께 표시하여 변수 간의 관계를 한눈에 파악할 수 있도록 돕는다. 바이플롯은 실제로는 서로 위에 인쇄된 두 개의 산점도로 구성되며, 행에 대한 점 집합과 열에 대한 점 집합이 있다. 사용된 두 좌표 행렬에는 관련된 명확한 해석 규칙이 존재한다. 일반적으로 CA 솔루션의 처음 두 차원이 2D로 표시할 수 있는 데이터 테이블에 대한 최대 정보를 포함하므로 플롯된다. 다른 차원 조합도 바이플롯으로 조사할 수 있다.

''스케일링 1''[15] 바이플롯(행은 주 좌표, 열은 표준 좌표)은 다음과 같이 해석된다:[20]


  • 행 점 사이의 거리는 해당 카이제곱 거리를 근사한다. 서로 가까운 점은 원본 데이터 테이블에서 매우 유사한 값을 가진 행을 나타낸다.
  • 표준 좌표의 (열) 점은 벡터 공간의 꼭짓점을 나타낸다. 행 점을 원점과 열의 표준 좌표를 연결하는 선에 투영하면, 해당 연결 선을 따라 투영된 위치가 해당 표준 좌표의 위치와 가까울수록 해당 행 점은 이 열과 강하게 연관된다.


''스케일링 1'' 바이플롯에서는 행 점 간의 거리가 카이제곱 거리를 근사하고, 행 점을 열 점에 투영하여 변수 간의 연관성을 해석할 수 있다.

4. 확장 및 응용

대응 분석(CA)에는 추세 제거 대응 분석(DCA) 및 정준 대응 분석(CCA)을 포함한 여러 변형이 있다. 정준 대응 분석(CCA)은 조사 대상 간의 유사성에 대한 가능한 원인에 대한 정보가 있을 때 사용된다. 대응 분석을 여러 범주형 변수로 확장한 것을 다중 대응 분석(MCA)이라고 한다. 대응 분석을 질적 변수를 기반으로 한 구별 문제(즉, 질적 데이터에 대한 판별 분석)에 적용한 것을 판별 대응 분석 또는 중바리 중심 판별 분석이라고 한다.

사회 과학 분야에서 대응 분석, 특히 다중 대응 분석의 확장은 프랑스 사회학자 피에르 부르디외의 적용을 통해 프랑스 외부로 알려졌다.[21]

5. 구현

대응 분석은 다양한 통계 소프트웨어 및 프로그래밍 언어를 통해 구현할 수 있다.


  • 오렌지에는 orngCA 모듈이 포함되어 있다.
  • 통계 프로그래밍 언어 R에는 대응 분석 기능을 제공하는 여러 패키지가 있다. R 표기법 [package_name::function_name]을 사용하여 패키지 및 해당 함수는 다음과 같다: ade4::dudi.coa(), ca::ca(), ExPosition::epCA(), FactoMineR::CA(), MASS::corresp(), vegan::cca(). 초보자에게 가장 쉬운 방법은 해당 패키지에 대한 광범위한 교재[22]가 함께 제공되는 ca::ca()이다.
  • PAST(고생물 통계)는 "다변량/정렬/대응 (CA)" 메뉴를 통해 대응 분석을 제공한다.[23]

참조

[1] 서적 The Oxford Dictionary of Statistical Terms OUP
[2] 논문 A connection between correlation and contingency Proc. Cambridge Philosophical Society
[3] 서적 L'Analyse des Données. Volume II. L'Analyse des Correspondances Dunod
[4] 서적 Correspondence Analysis. Theory, Practice and New Strategies Wiley
[5] 서적 Correspondence Analysis in Practice CRC Press
[6] 서적 Numerical Ecology Elsevier
[7] 서적 Theory and Applications of Correspondence Analysis Academic Press
[8] 서적 Correspondence Analysis in Practice, Second Edition Chapman & Hall/CRC
[9] 서적 Correspondence Analysis in Practice CRC Press
[10] 서적 Correspondence Analysis in Practice CRC Press
[11] 서적 Correspondence Analysis in Practice, Second Edition Chapman & Hall/CRC
[12] 서적 Matrix algebra Cambridge University Press
[13] 서적 Correspondence Analysis. Theory, Practice and New Strategies Wiley
[14] 서적 Correspondence Analysis. Theory, Practice and New Strategies Wiley
[15] 서적 Numerical Ecology Elsevier
[16] 서적 Correspondence Analysis in Practice CRC Press
[17] 서적 Korrespondenzanalyse Walter de Gruyter
[18] 서적 Correspondence Analysis in Practice CRC Press
[19] 웹사이트 MASS R package manual https://rdrr.io/cran[...] 2022-01-13
[20] 서적 Numerical Ecology with R Springer
[21] 서적 Distinction https://archive.org/[...] Routledge
[22] 서적 Correspondence Analysis in Practice CRC PRESS
[23] 웹사이트 Past 4 - the Past of the Future https://www.nhm.uio.[...] 2021-09-14
[24] 논문 A connection between correlation and contingency Proc. Cambridge Philosophical Society
[25] 서적 L'Analyse des Données. Volume II. L'Analyse des Correspondances Dunod
[26] 서적 Correspondence Analysis. Theory, Practice and New Strategies Wiley



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com