자유도 (통계학)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
자유도(degrees of freedom)는 통계학에서 사용되는 개념으로, 통계적 추정에서 독립적으로 정보를 제공하는 관측치의 수를 의미한다. 1821년 가우스의 연구에서 개념이 제시되었고, 1908년 고셋에 의해 현대적인 정의가 이루어졌으며, 피셔에 의해 널리 사용되었다. 자유도는 표기법으로 그리스 문자 ν(뉴)를 사용하며, d.f.로 표현되기도 한다. 확률 벡터의 차원으로 해석될 수 있으며, 통계적 검정 결과를 보고할 때 검정 통계량 옆에 표시된다. 선형 모형, 분산 분석, 확률 분포 등 다양한 통계적 방법에서 활용되며, 비표준 회귀에서는 유효 자유도 개념이 사용된다.
자유도의 기본 개념은 19세기 초 카를 프리드리히 가우스의 연구에서 처음 나타났으며, 20세기 초 윌리엄 시릴 고셋이 "Student"라는 필명으로 발표한 논문에서 현대적인 정의와 사용법이 상세히 설명되었다.[4] 이 용어 자체는 로널드 피셔에 의해 대중화되었다.[5]
자유도를 나타내는 일반적인 기호는 ''ν'' (소문자 그리스 문자 뉴)이며, "d.f."라는 약어도 일반적으로 사용된다. 로널드 A. 피셔는 ''n''을 사용했지만, 현대에는 ''n''이 표본 크기를 나타내는 데 사용된다.[6] 통계적 가설 검정 결과를 보고할 때는 검정 통계량 옆에 아래 첨자 또는 괄호 안에 자유도를 표시한다.[6]
기하학적으로 자유도는 특정 벡터 부분 공간의 차원으로 해석될 수 있다. 독립적으로 정규 분포를 따르는 관측치 표본 \\(X_1,\dots,X_n\\)이 있다고 가정하면, 이는 ''n''차원 확률 벡터로 나타낼 수 있다.
2. 역사
2. 1. 가우스의 초기 연구 (19세기)
독일의 천문학자이자 수학자인 카를 프리드리히 가우스는 1821년 연구에서 자유도의 기본 개념을 제시하였다.[3]
2. 2. 고셋의 현대적 정의 (20세기 초)
윌리엄 시릴 고셋은 1908년 "Student"라는 필명으로 발표한 논문에서 스튜던트 t-분포를 개발하면서 자유도 개념을 설명했다.[4] 고셋은 '자유도'라는 용어를 직접 사용하지는 않았지만, 스튜던트 t-분포 개발 과정에서 이 개념을 설명했다.[4]
2. 3. 피셔의 자유도 개념 대중화 (20세기)
잉글랜드의 통계학자이자 생물학자인 로널드 피셔는 1922년 카이 제곱 분포에 대한 연구를 통해 "자유도" 용어를 대중화시켰다.[5]
3. 표기법
4. 확률 벡터와 자유도
:
이 확률 벡터는 ''n''차원 공간 어디에나 위치할 수 있으므로, ''n''개의 자유도를 갖는다.
표본 평균을 이용하여 확률 벡터를 분해하면, 평균에 대한 벡터는 1개의 자유도를, 잔차 벡터는 ''n''-1개의 자유도를 갖는다. (자세한 내용은 하위 섹션인 "예시: 벡터 확률 분해" 참조)
4. 1. 예시: 벡터 확률 분해
n개의 변수를 가진 확률 벡터는 n차원 공간에서 n개의 자유도를 갖는다. 표본 평균을 라고 할 때, 이 확률 벡터는 다음과 같이 표본 평균과 잔차 벡터의 합으로 분해될 수 있다.
:
여기서 오른쪽의 첫 번째 벡터는 1의 벡터의 배수로 제한되며, 유일한 자유량은 이므로 1개의 자유도를 갖는다.
두 번째 벡터는 이라는 관계에 의해 제한된다. 이 벡터의 처음 n-1개의 성분은 자유롭게 값을 가질 수 있지만, n번째 성분은 앞의 n-1개 성분에 의해 결정되므로, 이 벡터는 n-1개의 자유도를 갖는다.
수학적으로, 첫 번째 벡터는 데이터 벡터를 1의 벡터로 선형 결합된 부분 공간에 사선 투영한 것이며, 이 부분 공간의 차원이 1이므로 1개의 자유도를 갖는다. 두 번째 잔차 벡터는 이 부분 공간의 (n-1)차원 직교 여공간에 대한 최소 제곱 투영이며, n-1개의 자유도를 갖는다.[1]
4. 2. 잔차 제곱합과 자유도
잔차 제곱합은 잔차 벡터의 제곱 길이로, 데이터가 정규 분포를 따를 때 카이제곱 분포를 따른다. 잔차 제곱합의 자유도는 ''n''-1개이다.
수학적으로, 잔차 벡터는 데이터 벡터를 1의 벡터로 선형 결합된 부분 공간에 사선 투영한 것의 직교 여공간((''n'' − 1)차원)이며, ''n'' − 1개의 자유도를 갖는다.
데이터 점 \\(X_i\\)가 평균 0과 분산 \\(\sigma^2\\)를 갖는 정규 분포를 따른다면, 잔차 제곱합은 \\(\sigma^2\\)로 크기 조정된 카이제곱 분포를 따르며, ''n'' − 1개의 자유도를 갖는다.
''t''-검정 통계량은 다음과 같다.
:\\(\frac{ \sqrt{n} (\bar{X}-\mu_0) }{ \sqrt{\sum\limits_{i=1}^n (X_i-\bar{X})^2 / (n-1)} }\\)
이는 가설 평균 \\(\mu_0\\)가 정확할 때 ''n'' − 1개의 자유도를 갖는 스튜던트 t 분포를 따른다. 자유도는 분모의 잔차 벡터에서 발생한다.
5. 구조 방정식 모형 (SEM)에서의 자유도
구조 방정식 모형(SEM)의 결과가 제시될 때, 일반적으로 하나 이상의 전체 모형 적합도 지수가 포함되며, 가장 흔한 지수는 ''χ''2 통계량이다. 이는 일반적으로 보고되는 다른 지수의 기반을 형성한다. 다른 통계량이 가장 일반적으로 해석되지만, 모형 적합도와 모형 자체의 본질을 이해하는 데에는 ''χ''2의 자유도가 필수적이다.
SEM에서 자유도는 분석에 입력으로 사용되는 고유한 정보 조각 수(때로는 알려진 값이라고 함)와 고유하게 추정되는 매개변수 수(때로는 알 수 없는 값이라고 함)의 차이로 계산된다. 예를 들어, 4개의 항목을 가진 단일 요인 확인적 요인 분석에서 10개의 알려진 값(4개 항목 간의 6개의 고유 공분산과 4개 항목의 분산)과 8개의 알 수 없는 값(4개의 요인 적재량과 4개의 오차 분산)이 있어 자유도는 2이다. 다른 모든 조건이 동일할 때 자유도가 적을수록 ''χ''2와 같은 지표가 더 좋아지기 때문에 자유도는 모형 적합도를 이해하는 데 중요하다.
자유도는 SEM을 포함하는 논문을 읽는 사람이 해당 논문의 저자가 실제로 올바른 모형 적합도 통계를 보고하고 있는지 여부를 결정하는 데 사용될 수 있다는 것이 밝혀졌다. 예를 들어, 조직 과학 분야에서 최고 저널에 게재된 논문의 거의 절반이 해당 논문에서 설명된 모형과 일치하지 않는 자유도를 보고하여 독자가 실제로 어떤 모형이 검증되었는지 의아하게 만든다.[7]
6. 잔차의 자유도
데이터에 통계 모델을 적합할 때, 잔차 벡터는 벡터의 구성 요소 수보다 작은 차원의 공간에 놓이도록 제한된다. 이 작은 차원이 '오차에 대한 자유도'의 수이며, '잔차 자유도'라고도 한다.
이보다 조금 덜 간단한 예는 모델에서 ''a''와 ''b''를 최소 제곱법으로 추정하는 경우이다.
:
여기서 ''x''''i''는 주어지지만, e''i''와 그에 따라 ''Y''''i''는 확률적이다. 와 를 ''a''와 ''b''의 최소 제곱 추정값이라고 하자. 그러면 잔차
:
는 다음 두 개의 방정식으로 정의된 공간 안에 놓이도록 제한된다.
:
:
따라서 오차에 대해 ''n'' − 2 자유도가 있다고 말한다.
표기법적으로는 모델을 지정할 때는 대문자 ''Y''를 사용하고, 잔차의 정의에는 소문자 ''y''를 사용한다. 이는 전자는 가설 확률 변수이고 후자는 실제 데이터이기 때문이다.
이것은 여러 개의 매개변수와 공변량(예: ''p'' − 1개의 예측 변수와 하나의 평균(=회귀에서의 절편))을 포함하는 다중 회귀로 일반화할 수 있으며, 이 경우 "적합의 자유도"에서 발생하는 비용은 ''p''가 되며, 이는 오차에 대해 ''n - p'' 자유도를 남긴다.
6. 1. 예시: 잔차 계산
자유도는 다른 정보를 추정하는 데 사용할 수 있는 독립적인 정보 조각의 수로 생각할 수 있다. 더 구체적으로, 자유도의 수는 해당 표본이 추출된 모집단의 매개변수를 추정하는 데 사용할 수 있는 데이터 표본의 독립적인 관측치의 수이다. 예를 들어, 두 개의 관측치가 있는 경우 평균을 계산할 때 두 개의 독립적인 관측치가 있지만, 분산을 계산할 때는 두 관측치가 표본 평균에서 동일한 거리에 있기 때문에 하나의 독립적인 관측치만 있다.데이터에 통계 모델을 적합할 때, 잔차 벡터는 벡터의 구성 요소 수보다 작은 차원의 공간에 위치하도록 제한된다. 이 작은 차원이 '오차에 대한 자유도'의 수이며, '잔차 자유도'라고도 한다.
가장 간단한 예는 다음과 같다.
:
가 각각 기댓값 ''μ''를 갖는 확률 변수이고,
:
가 "표본 평균"이라고 하자. 그러면,
:
는 추정된 ''X''''i'' − ''μ''의 오차로 간주될 수 있는 잔차이다. 잔차의 합은 (오차의 합과 달리) 반드시 0이다. 잔차 중 임의의 ''n'' − 1개의 값을 알고 있다면 마지막 잔차를 찾을 수 있다. 즉, 이 값들은 차원이 ''n'' − 1인 공간에 놓이도록 제한된다는 것을 의미한다. 따라서 오차에 대해 ''n'' − 1 자유도가 있다고 말한다.
7. 선형 모형에서의 자유도
선형 모형, 선형 회귀, 분산 분석 등에서 자유도는 벡터 분해를 통해 설명될 수 있다. 세 평균 비교 예시에서, 전체 평균은 1자유도, 그룹 간 차이는 2자유도, 잔차는 3''n''-3 자유도를 갖는다.[8]
세 개의 모집단, , 및 에 대해 독립적인 관측이 이루어진다고 가정한다. 세 그룹과 동일한 표본 크기로 제한하면 표기법이 단순해지지만, 아이디어는 쉽게 일반화된다.
관측값은 다음과 같이 분해될 수 있다.
:
여기서 는 개별 표본의 평균이며, 는 모든 3''n'' 관측값의 평균이다. 벡터 표기법으로 이 분해는 다음과 같이 쓸 수 있다.
:
왼쪽의 관측 벡터는 3''n'' 자유도를 갖는다. 오른쪽에서 첫 번째 벡터는 전체 평균에 대해 1자유도(또는 차원)를 갖는다. 두 번째 벡터는 세 개의 확률 변수, , 및 에 의존한다. 그러나 이들은 합이 0이어야 하므로 제약이 있으며, 따라서 벡터는 2차원 부분 공간에 놓여야 하며, 2자유도를 갖는다. 나머지 3''n'' − 3 자유도는 잔차 벡터에 있다(각 모집단 내에서 ''n'' − 1 자유도로 구성됨).
8. 분산 분석 (ANOVA)에서의 자유도
어떤 실험에서 피험자들을 각 30명씩 4개 집단에 무선배치했을 때, 전체 자유도, 집단 내 자유도, 집단 간 자유도는 다음과 같다.
- 전체 자유도:
- 집단 내 자유도:
- 집단 간 자유도:
통계적 검정 문제에서, 일반적으로는 구성 벡터 자체에 관심이 있는 것이 아니라 제곱 길이, 즉 제곱합에 관심이 있다. 제곱합과 관련된 자유도는 해당 구성 벡터의 자유도이다.
위의 예시는 일원 분산 분석의 한 예이다. 모형 또는 처리 제곱합은 두 번째 벡터의 제곱 길이로, 자유도 2를 갖는다. 잔차 또는 오차 제곱합은 자유도 3(''n''−1)을 갖는다.
모집단 평균 간에 차이가 없다는 귀무 가설 하에서 (그리고 표준 ANOVA 규칙성 가정이 충족된다고 가정하면) 제곱합은 해당 자유도로 스케일링된 카이제곱 분포를 갖는다. F-검정 통계량은 자유도로 스케일링된 후의 비율이다. 모집단 평균 간에 차이가 없으면 이 비율은 자유도가 2와 3''n'' − 3인 ''F''-분포를 따른다.
불균형한 분할구 설계와 같은 복잡한 설정에서는 제곱합이 더 이상 스케일링된 카이제곱 분포를 갖지 않는다. 제곱합과 자유도의 비교는 더 이상 의미가 없으며, 이 경우 소프트웨어는 특정 분수 '자유도'를 보고할 수 있다. 이러한 숫자는 진정한 자유도 해석이 없지만, 단순히 해당 제곱합에 대한 ''근사'' 카이제곱 분포를 제공하는 것이다.
9. 확률 분포에서의 자유도
스튜던트 t-분포, 카이 제곱 분포, F-분포와 같은 통계적 분포는 "자유도"라는 매개변수를 갖는다. 이 매개변수는 많은 경우 기본 무작위 벡터의 자유도를 반영한다. 예를 들어, 이 독립적인 정규 확률 변수라면, 다음 통계량은 ''n'' − 1 자유도를 가진 카이 제곱 분포를 따른다.
:
여기서 자유도는 잔차 제곱합에서 발생하며, 잔차 벡터 의 ''n'' − 1 자유도에서 비롯된다.
이러한 분포를 선형 모형에 적용할 때 자유도 매개변수는 정수 값만 가질 수 있다. 그러나 기본 분포군은 분수 값의 자유도 매개변수를 허용할 수 있으며, 이는 유효 자유도를 기반으로 하는 카이 제곱 근사와 같은 문제에서 나타날 수 있다. 헤비 테일 데이터를 모델링하는 경우처럼 t-분포 또는 ''F''-분포가 경험적 모델로 사용될 때, "자유도"라는 용어는 계속 사용되지만, 분포 매개변수에 대한 특별한 해석은 없을 수 있다.
10. 비표준 회귀에서의 자유도
정규화 최소 제곱(예: 릿지 회귀), 선형 스무더, 스무딩 스플라인, 반모수적 회귀 등은 일반 최소 제곱 투영에 기반하지 않고, 정규화된 (일반화된 및/또는 페널티가 적용된) 최소 제곱에 기반한다. 따라서 차원성을 기준으로 정의된 자유도는 일반적으로 이러한 절차에 유용하지 않다.
그러나 이러한 절차는 여전히 관찰값에 대해 선형이며, 회귀의 적합 값은 다음과 같은 형식으로 표현할 수 있다.
:
여기서 는 적합된 모델에서 원래 공변량 값 각각에 대한 적합 값의 벡터이고, ''y''는 원래 반응 값의 벡터이며, ''H''는 햇 행렬 (또는 스무더 행렬)이다.
통계적 추론을 위해 제곱합은 여전히 구성될 수 있다. 모델 제곱합은 이고, 잔차 제곱합은 이다. ''H''가 일반 최소 제곱 적합에 해당하지 않으므로(즉, 직교 투영이 아님), 이러한 제곱합은 (스케일링된, 비중심) 카이제곱 분포를 갖지 않으며, 차원적으로 정의된 자유도는 유용하지 않다.
이러한 적합의 유효 자유도는 적합도 검정, 교차 검증 및 기타 통계적 추론 절차를 구현하기 위해 다양하게 정의될 수 있다.
10. 1. 회귀 유효 자유도
선형 모델에서 회귀 유효 자유도는 관찰된 반응 값에 대한 적합 값의 민감도의 합, 즉 레버리지 점수의 합이다.[11]회귀 유효 자유도는 모자 행렬의 대각합 tr(''H'')[9] 등으로 정의될 수 있다. 선형 회귀에서 모자 행렬 ''H''는 ''X''(''X''
:
10. 2. 잔차 유효 자유도
정규화 최소 제곱(예: 릿지 회귀), 선형 스무더, 스무딩 스플라인, 반모수적 회귀 등과 같은 비표준 회귀 방법은 일반 최소 제곱 투영에 기반하지 않고, 정규화된 (일반화된 및/또는 페널티가 적용된) 최소 제곱에 기반한다. 따라서 차원성을 기준으로 정의된 자유도는 일반적으로 이러한 절차에 유용하지 않다. 그러나 이러한 절차는 여전히 관찰값에 대해 선형이며, 회귀의 적합 값은 다음과 같은 형식으로 표현할 수 있다.:\hat{y} = Hy,
여기서 \hat{y}는 적합된 모델에서 원래 공변량 값 각각에 대한 적합 값의 벡터이고, ''y''는 원래 반응 값의 벡터이며, ''H''는 햇 행렬 또는 더 일반적으로는 스무더 행렬이다.
통계적 추론을 위해, 제곱합은 여전히 구성될 수 있다. 모델 제곱합은 \|Hy\|^2이고, 잔차 제곱합은 \|y-Hy\|^2이다. 그러나 ''H''는 일반 최소 제곱 적합에 해당하지 않으므로 (즉, 직교 투영이 아님), 이러한 제곱합은 더 이상 (스케일링된, 비중심) 카이제곱 분포를 갖지 않으며, 차원적으로 정의된 자유도는 유용하지 않다.
적합의 ''유효 자유도''는 적합도 검정, 교차 검증 및 기타 통계적 추론 절차를 구현하기 위해 다양한 방식으로 정의될 수 있다. 여기에서 ''회귀 유효 자유도''와 ''잔차 유효 자유도''를 구별할 수 있다.
잔차 유효 자유도(redf)에 대한 해당 정의가 있으며, 여기서 ''H''는 ''I'' − ''H''로 대체된다. 예를 들어, 오차 분산을 추정하는 것이 목표인 경우, redf는 tr((''I'' − ''H'')'(''I'' − ''H''))로 정의되며, 편향되지 않은 추정치는 (\hat{r}=y-Hy를 사용하여) 다음과 같다.
:\hat\sigma^2 = \frac{ \|\hat{r}\|^2}{ \operatorname{tr}\left( (I-H)'(I-H) \right) },
또는:[12][13][14][15]
:\hat\sigma^2 = \frac{ \|\hat{r}\|^2}{ n - \operatorname{tr}( 2 H - H H' ) } = \frac{ \|\hat{r}\|^2}{ n - 2 \operatorname{tr}(H) + \operatorname{tr}(H H') }
:\hat\sigma^2 \approx \frac{ \|\hat{r}\|^2}{ n - 1.25 \operatorname{tr}(H) + 0.5 }.
위의 마지막 근사[13]는 계산 비용을 ''O''(''n''2)에서 단지 ''O''(''n'')으로 줄인다. 일반적으로 분자는 최소화되는 목적 함수가 된다. 예를 들어, 모자 행렬에 관측 공분산 행렬 Σ가 포함된 경우 \|\hat{r}\|^2은 \hat{r}'\Sigma^{-1}\hat{r}이 된다.
10. 3. 일반적인 유효 자유도
적합의 ''유효 자유도''는 적합도 검정, 교차 검증 및 기타 통계적 추론 절차를 구현하기 위해 다양한 방식으로 정의될 수 있다. 여기서 ''회귀 유효 자유도''와 ''잔차 유효 자유도''를 구별할 수 있다.원래 경우와 달리, 자유도는 정수가 아니어도 되지만, 일반적으로 0과 ''n'' 사이로 제한된다.[16]
예를 들어, 주어진 지점에서 가장 가까운 ''k''개의 측정값의 평균인 ''k''-최근접 이웃 스무더를 생각해 보자. 그러면, ''n''개의 측정된 각 지점에서, 예측값을 구성하는 선형 결합에 대한 원래 값의 가중치는 단지 1/''k''이다. 따라서 모자 행렬의 대각합은 ''n/k''이다. 따라서 스무딩에는 ''n/k''개의 유효 자유도가 소요된다.
또 다른 예로, 거의 중복된 관측값이 존재하는 경우를 생각해 보자. 고전적인 공식 ''n'' − ''p''의 단순한 적용은 각 관측값이 독립적인 것처럼 잔차의 자유도를 과대평가하게 된다. 그러나 더 현실적으로, 모자 행렬은 관측치 간의 0이 아닌 상관관계를 나타내는 관측 공분산 행렬 Σ를 포함할 것이다.
유효 자유도의 더 일반적인 공식은 예를 들어 오차 분산 σ2에 대한 더 현실적인 추정치를 산출하며, 이는 차례로 알 수 없는 매개변수의 ''사후'' 표준 편차를 조정한다. 자유도는 또한 주어진 신뢰 수준에 대한 오차 타원을 생성하는 데 필요한 팽창 인자에 영향을 미칠 것이다.
11. 다른 표현들
비모수 회귀의 '등가 자유도',[17] 대기 연구의 '신호의 자유도',[18][19] 측지학의 '비정수 자유도'가 있다.[20][21]
참조
[1]
웹사이트
Degrees of Freedom
http://www.animateds[...]
Animated Software
2008-08-21
[2]
웹사이트
Degrees of Freedom
http://davidmlane.co[...]
Statistics Solutions
2008-08-21
[3]
논문
Degrees of Freedom
http://www.nohsteach[...]
1940-04
[4]
논문
The Probable Error of a Mean
https://zenodo.org/r[...]
1908-03
[5]
논문
On the Interpretation of χ2 from Contingency Tables, and the Calculation of P
https://zenodo.org/r[...]
1922-01
[6]
논문
Reporting statistical methods and outcome of statistical analyses in research articles
https://link.springe[...]
2020-06-01
[7]
문서
Degrees of freedom in SEM: Are we testing the models that we claim to test?
2017
[8]
서적
Plane Answers to Complex Questions: The Theory of Linear Models
Springer
[9]
서적
The elements of statistical learning: data mining, inference, and prediction
https://books.google[...]
[10]
서적
Nonparametric Simple Regression: Smoothing Scatterplots
https://books.google[...]
SAGE Publications
2020-08-28
[11]
간행물
On Measuring and Correcting the Effects of Data Mining and Model Selection
1998
[12]
서적
Local regression and likelihood
https://books.google[...]
[13]
서적
Generalized additive models
https://books.google[...]
CRC Press
[14]
서적
Generalized additive models: an introduction with R
https://books.google[...]
CRC Press
[15]
서적
Semiparametric Regression
Cambridge University Press
[16]
서적
Richly Parameterized Linear Models
https://books.google[...]
CRC Press
[17]
서적
Nonparametric regression and generalized linear models: a roughness penalty approach
https://books.google[...]
CRC Press
[18]
서적
Inverse methods for atmospheric sounding: theory and practice
World Scientific
[19]
서적
Numerical Regularization for Atmospheric Inverse Problems
Springer
[20]
논문
Estimating regional deformation from a combination of space and terrestrial geodetic data
1997
[21]
간행물
On the Use of Incomplete Prior Information in Regression Analysis
1963
[22]
문서
Statistical analysis of empirical models fitted by optimisation
1983
[23]
서적
측량학1
형설출판사
2013
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com