분산
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
분산은 확률 변수의 평균으로부터의 흩어진 정도를 나타내는 값으로, 확률 변수가 얼마나 떨어져 있는지 그 정도를 제곱한 것의 기댓값과 같다. 분산은 이산확률변수, 연속확률변수 등 모든 형태의 확률분포에 적용되며, 또는 로 표현한다. 분산은 확률 변수 제곱의 기댓값에서 기댓값의 제곱을 뺀 것과 같으며, 이산 확률 변수의 경우 로, 연속 확률 변수의 경우 로 정의된다. 분산은 0 이상의 값을 가지며, 상수의 분산은 0이고, 확률변수에 상수를 더하거나 곱할 때 분산에 미치는 영향이 다르다. 통계적 추정에서는 모집단의 분산과 표본의 분산을 구분하며, 표본 분산은 베셀의 수정을 통해 불편 추정량을 얻는다. 분산의 제곱근은 표준 편차이며, 분산과 표준 편차는 데이터 집합의 흩어짐을 설명하는 데 사용된다.
더 읽어볼만한 페이지
- 모멘트 (수학) - 모멘트 문제
모멘트 문제는 측도 공간에서 특정 조건을 만족하는 적분 가능 함수가 존재하는지, 존재한다면 유일한지 묻는 문제로, 고전적인 형태로는 실수선 위의 측도와 수열을 다루며, 유일성 판별에는 칼레만 조건과 크레인 조건 등이 사용된다. - 모멘트 (수학) - 첨도
첨도는 확률분포의 뾰족한 정도를 나타내는 척도로, 꼬리 부분과 중앙 집중도를 함께 나타내며 정규 분포와의 차이를 측정하고 렙토쿠르트, 플라티쿠르트, 중첨도로 분류되어 통계 분석 및 과학 분야에서 데이터 특성 파악에 활용된다. - 통계량 - 제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다. - 통계량 - 최빈값
최빈값은 데이터 집합에서 가장 자주 나타나는 값으로, 확률 분포의 중심 경향을 나타내는 척도이며 이상치에 둔감하고 명목형 데이터에도 적용 가능하다. - 확률론 - 확률 밀도 함수
확률 밀도 함수는 연속 확률 변수의 확률 분포를 나타내는 함수로, 특정 구간에서 확률 변수가 값을 가질 확률은 해당 구간에 대한 함수의 적분으로 계산되며, 통계적 특성 계산 및 변수 변환 등에 활용되어 불확실성 모델링 및 분석에 중요한 역할을 한다. - 확률론 - 체비쇼프 부등식
체비쇼프 부등식은 확률 변수가 평균에서 얼마나 멀리 떨어져 있는지에 대한 확률의 상한을 제공하는 부등식으로, 이레네-쥘 비네메가 처음 공식화하고 체비쇼프와 안드레이 마르코프에 의해 일반화 및 증명되었으며, 확률론적 표현 외에도 측도 공간에 대한 명제로 확장될 수 있다.
| 분산 | |
|---|---|
| 설명 | |
| 정의 | 확률변수가 기댓값으로부터 얼마나 벗어나는지를 나타내는 통계적인 척도 |
| 표기 | V(X) 또는 Var(X) |
| 수식 | V(X) = E[(X − E[X])²] |
| 특징 | |
| 측정 단위 | 확률변수의 측정 단위의 제곱 |
| 항상 0 이상 | 항상 0 이상의 값을 가짐 |
| 확률 분포의 모양 | 확률 분포의 모양을 결정하는 중요한 특성 중 하나 |
| 종류 | |
| 모집단 분산 | 모집단의 모든 값들을 이용하여 계산한 분산 |
| 표본 분산 | 모집단에서 추출한 표본 값들을 이용하여 계산한 분산 |
| 활용 | |
| 통계 분석 | 데이터의 흩어진 정도를 파악하고 비교하는 데 사용 |
| 위험 관리 | 금융 투자에서 위험을 측정하는 데 사용 |
| 품질 관리 | 제품의 품질 변동을 관리하는 데 사용 |
2. 정의
확률변수 의 분산은 의 기댓값 로부터 확률변수가 얼마나 떨어져 있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.
:
기댓값의 성질을 이용하여 위 식을 전개하면 다음과 같이 표현할 수 있다.
:
즉, 확률변수 의 분산은 제곱의 기댓값에서 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.[32]
이 정의는 이산확률변수, 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산을 사용해 다음과 같이 나타내기도 한다.
:
분산은 보통 또는 , 혹은 간단히 으로 표현한다. 는 표준편차를 의미한다.[32]
2. 1. 이산확률변수
확률 변수 가 확률 질량 함수 를 따르는 이산확률분포를 가질 때, 분산은 다음과 같이 정의된다.:
이때 는 기댓값을 의미한다. 만약 이산 가중 분산이 가중치의 합이 1이 아닌 가중치로 지정된 경우, 가중치의 합으로 나눈다.
2. 2. 연속확률변수
확률 변수 가 확률 밀도 함수 와 누적 분포 함수 를 따르는 연속확률분포를 가질 때, 분산은 다음과 같이 정의된다.:
이는 확률 밀도 함수 를 이용해 다음과 같이 표현할 수 있다.
:
여기서 는 확률 변수 의 기댓값이다.
여기서 에 대한 적분은 르베그 적분을, 에 대한 적분은 르베그-스틸티어스 적분을 의미한다.
만일 가 모든 폐구간 에서 리만 적분 가능한 함수라면 분산은 이상 적분을 통해 다음과 같이 표현할 수 있다.
:
3. 성질
확률 변수 의 분산은 의 평균 에 대한 평균으로부터의 제곱 편차의 기댓값으로 정의된다.
:
이 정의는 이산 확률 변수, 연속 확률 변수, 칸토어 분포 또는 혼합된 프로세스에 의해 생성된 확률 변수를 포함한다. 분산은 확률 변수와 자기 자신과의 공분산으로도 표현할 수 있다.
:
분산은 또한 를 생성하는 확률 분포의 두 번째 큐뮬런트와 동일하다. 분산은 일반적으로 로 지정되거나, 때로는 또는 로, 또는 기호로 또는 간단히 ( "시그마 제곱"으로 발음)로 지정된다.
분산에 대한 식은 다음과 같이 확장할 수 있다.
:
다시 말해, 의 분산은 의 제곱의 평균에서 의 평균의 제곱을 뺀 것과 같다.
체비쇼프 부등식에 따르면, 임의의 양수 에 대해 다음이 성립한다.
:
이는 분산이 작아질수록 확률 변수가 기댓값에 가까운 값을 가지기 쉬워짐을 나타내는 대략적인 평가이다.
확률 변수 가 특정 분포를 따를 때 분산은 다음과 같이 계산된다.
3. 1. 기본 성질
어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.:
상수 하나로 이루어진 변수는 평균이 모든 항목의 값과 동일하므로 분산은 0이다.
:
이 역도 성립하여, 만일 어떤 확률변수 에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.
:
확률변수에 상수를 더해도 분산은 변하지 않는다.
:
만약 모든 값에 상수를 곱하면, 분산은 그 상수의 제곱만큼 커진다.
:
두 확률 변수의 합의 분산은 다음과 같다.
:
여기서 는 공분산이다.
3. 2. 확률변수의 합
두 확률변수의 합의 분산은 다음과 같이 나타낼 수 있다.:
이때 는 X와 Y의 공분산을 나타낸다. N개의 확률변수 의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.
:
만일 확률 변수 가 서로 비상관 관계라면 다음의 성질을 만족한다.
:
이는 곧 다음을 의미한다.
:
상호 독립적인 확률변수들은 항상 비상관 관계에 놓여 있기 때문에 위의 식은 확률 변수 가 서로 독립적인 경우에도 적용 가능하다.
3. 3. 확률변수의 곱
두 확률 변수 X와 Y가 독립이면, 이들의 곱의 분산은 다음과 같이 주어진다.[9]:
기댓값의 기본 속성을 사용하면 다음과 같이 표현할 수도 있다.
:
두 변수가 통계적으로 종속적이면, 그 곱의 분산은 다음과 같이 주어진다.
:
4. 여러 확률분포에서의 분산
지수 분포는 모수 λ를 가질 때 의 분산을 가지며, n면체 주사위의 분산은 이다.[2] 이항 분포, 기하 분포, 정규 분포, 균등 분포(연속형), 지수 분포, 푸아송 분포 등 주요 확률분포의 분산은 하위 섹션의 표에 정리되어 있다.
4. 1. 예시
모수 λ를 갖는 지수 분포의 분산은 이다.[2] 공정한 6면체 주사위의 분산은 이다. 일반적인 면체 주사위의 분산은 이다.[2]4. 2. 주요 확률분포
다음은 주요 확률분포들의 분산이다.
5. 통계적 추정
통계적 추정에서는 모집단의 분산(모분산)과 표본의 분산(표본 분산)을 구분한다. 현실 세계의 관측은 일반적으로 가능한 모든 관측의 완전한 집합이 될 수 없기 때문에, 유한 집합에서 계산된 분산은 전체 모집단의 분산과 일치하지 않는다. 따라서 제한된 관측 집합에서 추정은 추정량 방정식을 사용하여 평균 및 분산을 추정한다.
모집단 평균 및 모집단 분산에 대한 가장 간단한 추정량은 표본의 평균 및 분산인 '''표본 평균'''과 '''(수정되지 않은) 표본 분산'''이다. 이들은 일치 추정량이지만 개선될 수 있다. 표본 분산은 (표본) 평균에 대한 제곱 편차의 합을 표본 수인 ''n''으로 나누어 계산하는데, ''n'' 이외의 값을 사용하면 추정량이 개선된다. 분모에 대한 네 가지 일반적인 값은 ''n'', ''n'' − 1, ''n'' + 1, 및 ''n'' − 1.5이다. ''n''은 가장 간단하고(표본의 분산), ''n'' − 1은 편향을 제거하며,[11] ''n'' + 1은 정규 분포에 대한 평균 제곱 오차를 최소화하고,[12] ''n'' − 1.5는 정규 분포에 대한 표준 편차의 불편 추정에서 편향을 대부분 제거한다.[10]
실제 모집단 평균을 알 수 없는 경우, 표본 분산(실제 평균 대신 표본 평균을 사용함)은 편향 추정량이다. 이는 (''n'' − 1) / ''n''의 인수로 분산을 과소 평가한다. 이 인수를 수정하면 표본 평균에 대한 제곱 편차의 합을 ''n'' 대신 ''n'' -1로 나누게 되며, 이를 ''베셀의 수정''이라고 한다.[11] 결과 추정량은 불편 추정량이며 '''(수정된) 표본 분산''' 또는 '''불편 표본 분산'''이라고 한다.
표본 분산은 일반적으로 표본 분산과 모집단 분산 간의 평균 제곱 오차를 최소화하지 않는다. 편향을 수정하면 종종 상황이 악화된다. 정규 분포의 경우 ''n'' + 1(''n'' − 1 또는 ''n'' 대신)로 나누면 평균 제곱 오차가 최소화된다.[12] 결과 추정량은 편향되지만 '''편향 표본 분산'''이라고 한다.
추측 통계학에서는 모집단의 분산과 표본의 분산을 구분할 필요가 있으며, 표본 분산의 기대값은 모분산과 일치하지 않고 모분산보다 작아지는 경향이 있다.
:
위 식을 사용하면,
:
이 되어, 기대값이 모분산과 같아지는 추정량을 얻을 수 있다. 즉 모분산의 불편 추정량이 된다. 이것을 '''불편 표본 분산'''(unbiased sample variance) 또는 '''불편 분산'''(unbiased variance)이라고 한다.[31]
위의 표본 분산은 불편하지 않다는 것을 강조하는 경우 '''편향 표본 분산'''(biased sample variance)이라고 한다.
5. 1. 모 분산
크기 의 모집단에서 모분산 는 다음과 같이 정의된다. 여기서 는 모집단의 평균이다.[31]:
: 모집단의 분산(모 분산)
:: 변인
:: 모집단의 평균
:: 표본의 크기
일반적으로 크기 ''N''의 ''유한'' 모집단에서 값 ''x''''i''의 '''''모집단 분산'''''은 다음 공식으로 주어진다.[13]
여기서 모집단 평균은 이고 이며, 는 기댓값 연산자이다.
모집단 분산은 다음과 같이 계산할 수도 있다.[13]
:
6. 표준 편차
모집단의 표준 편차
변수의 평균 절대 편차와 달리, 변수의 분산은 변수 자체의 단위의 제곱을 단위로 갖는다. 예를 들어, 미터 단위로 측정된 변수는 제곱미터 단위로 측정된 분산을 갖는다. 이러한 이유로, 데이터 집합을 분산 대신 표준 편차 또는 제곱근 평균 제곱 편차를 사용하여 설명하는 것이 종종 선호된다. 주사위 예에서 표준 편차는
표준 편차와 기대 절대 편차는 모두 분포의 "분산"을 나타내는 지표로 사용될 수 있다. 표준 편차는 기대 절대 편차보다 대수적 조작에 더 적합하며, 분산 및 그 일반화인 공분산과 함께 이론 통계학에서 자주 사용된다. 그러나 기대 절대 편차는 강건한 경향이 있는데, 이는 측정 이상치 또는 과도한 헤비 테일 분포로 인한 이상치에 덜 민감하기 때문이다.
7. 컴퓨팅
컴퓨터 프로그램, 특히 스프레드시트에서는 `var()` 함수 등을 이용하여 분산을 간편하게 계산할 수 있다.
8. 추가 정보
전체 분산 법칙, 분산 분석, 불확실성 전파, 일반화된 분산
델타 방법은 2차 테일러 급수를 사용하여 하나 이상의 확률 변수의 함수에 대한 분산을 근사한다. 확률 변수의 함수 모멘트에 대한 테일러 급수를 참조. 예를 들어, 한 변수의 함수에 대한 근사 분산은 다음과 같다.
:
단, ''f''는 두 번 미분 가능하고 ''X''의 평균과 분산은 유한하다.
참조
[1]
서적
All of Statistics: a concise course in statistical inference
Springer texts in statistics
2005
[2]
컨퍼런스
Some new deformation formulas about variance and covariance
2012-06
[3]
학술지
Why the variance?
[4]
서적
Applied Multivariate Statistical Analysis
https://archive.org/[...]
Prentice Hall
[5]
문서
Loève, M.
[6]
문서
Bienaymé, I.-J.
[7]
문서
Bienaymé, I.-J.
[8]
문서
Cornell, J R, and Benjamin, C A
[9]
학술지
On the Exact Variance of Products
1960-12
[10]
학술지
A Note on Unbiased Estimation of the Standard Deviation
[11]
서적
Use and Abuse of Statistics
Methuen
[12]
학술지
A New Estimator of the Variance Based on Minimizing Mean Squared Error
https://www.jstor.or[...]
2012
[13]
컨퍼런스
Some new deformation formulas about variance and covariance
2012-06
[14]
문서
Navidi, William
[15]
문서
Montgomery, D. C. and Runger, G. C.
[16]
컨퍼런스
Some new deformation formulas about variance and covariance
2012-06
[17]
문서
Knight K.
[18]
문서
Casella and Berger
[19]
문서
Mood, A. M., Graybill, F. A., and Boes, D.C.
[20]
서적
Mathematics of Statistics. Part Two.
http://krishikosh.eg[...]
D. Van Nostrand Company, Inc.
1951
[21]
문서
Rose, Colin; Smith, Murray D.
[22]
문서
Weisstein, Eric W.
[23]
학술지
How Deviant Can You Be?
[24]
학술지
Bounds for A–G, A–H, G–H, and a family of inequalities of Ky Fan's type, using a general method
[25]
학술지
Some more inequalities for arithmetic mean, harmonic mean and variance
[26]
웹사이트
Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician
https://rutherfordjo[...]
[27]
웹사이트
Q&A: Semi-Variance: A Better Risk Measure?
https://famafrench.d[...]
2010-04-21
[28]
문서
Ronald Fisher
[29]
서적
Encyclopedia of Statistical Sciences
Wiley Online Library
[30]
웹사이트
Earliest Known Uses of Some of the Words of Mathematics (V)
https://jeff560.trip[...]
2016-01-24
[31]
문서
栗原
[32]
서적
[33]
컨퍼런스
Some new deformation formulas about variance and covariance
2012-06
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com