표본 평균
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
표본 평균은 모집단의 모평균에 대비되는 개념으로, 표본에서 추출된 값들의 산술 평균을 의미한다. 표본 평균은 표본 내 변수 값들의 평균으로, 해당 값들의 합을 값의 개수로 나눈 값이며, 수학적으로 로 표현된다. 표본 평균은 표본 공분산 행렬과 함께 불편성을 가지며, 표본 평균의 분포는 확률 변수이며 자체적인 분포를 갖는다. 표본 평균은 가중 표본에서도 사용되며, 이상치에 민감하다는 비판을 받기도 한다.
더 읽어볼만한 페이지
- 추정법 - 기댓값 최대화 알고리즘
- 추정법 - 델파이 기법
델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다. - 평균 - 제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다. - 평균 - 조화 평균
조화 평균은 양의 실수들의 역수의 산술 평균의 역수로 정의되며, 작은 값에 민감하게 반응하여 비율이나 비를 포함하는 상황에서 유용하게 활용되는 평균의 한 종류이다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
표본 평균 |
---|
2. 표본 평균 (Sample Mean)
표본 평균은 모집단의 모 평균에 대비되는 개념으로, 표본을 추출하여 그 표본들의 평균을 구해 얻은 값을 말한다. 표본 평균은 모집단의 모평균을 추정하는 데 사용된다.[1] 표본이 무작위로 추출되어도 완벽하게 모집단을 대표하는 경우는 드물며, 같은 모집단에서 추출된 서로 다른 표본들은 서로 다른 표본 평균을 가질 수 있다. 예를 들어 모집단 (1,1,3,4,0,2,1,0)에서 추출된 표본 (2, 1, 0)의 표본 평균은 1이 된다.[1]
2. 1. 표본 평균의 정의
표본 평균()은 표본의 평균으로, 모두 더한 후 n으로 나눈 산술 평균이다.표본 평균은 표본 내 변수 값들의 평균으로, 해당 값들의 합을 값의 개수로 나눈 값이다. 수학적 표기법을 사용하면, 모집단에서 변수 ''X''에 대한 ''N''개의 관측치 표본을 추출할 때, 표본 평균은 다음과 같다.
:
이 정의에 따르면, 모집단 (1, 1, 3, 4, 0, 2, 1, 0)에서 표본 (1, 4, 1)을 추출하면 표본 평균은 가 된다.
2. 2. 다변수 표본 평균
만약 통계학자가 하나의 변수가 아닌 ''K''개의 변수에 관심이 있고, 각 관측치가 해당 ''K''개 변수 각각에 대한 값을 갖는다면, 전체 표본 평균은 개별 변수에 대한 ''K''개의 표본 평균으로 구성된다. 를 ''j''번째 확률 변수(''j''=1,...,''K'')에 대한 ''i''번째 독립적으로 추출된 관측치(''i''=1,...,''N'')라고 하자. 이러한 관측치는 ''N''개의 열 벡터로 정렬될 수 있으며, 각 열 벡터는 ''K''개의 항목을 가지며, 모든 변수의 ''i''번째 관측치를 나타내는 ''K''×1 열 벡터는 (''i''=1,...,''N'')로 표시된다.'''표본 평균 벡터''' 는 ''j''번째 요소 가 ''j''번째 변수에 대한 ''N''개 관측치의 평균값인 열 벡터이다.
:
따라서, 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 다음과 같이 표현된다.
:
3. 표본 분산 (Sample Covariance)
표본 분산은 표본의 분산을 나타내는 값으로, 모집단의 모 분산을 추정하는 데 사용된다.[1] 표본 분산과 표본 공분산, 표본 공분산 행렬에 대한 자세한 내용은 하위 섹션을 참고할 수 있다.
3. 1. 표본 분산의 정의
표본 분산은 표본의 분산이다. 모집단의 분산인 모 분산과 비교할 수 있다.3. 2. 표본 공분산 행렬
'''표본 공분산 행렬'''은 ''K''×''K'' 행렬 로, 각 요소는 다음과 같다.:
여기서 는 데이터의 기반이 되는 모집단의 j번째 변수와 k번째 변수 사이의 공분산에 대한 추정치이다.
관측 벡터의 관점에서 표본 공분산은 다음과 같다.
:
또는 관측 벡터를 행렬의 열로 배열하면 다음과 같다.
:
이는 ''K''개의 행과 ''N''개의 열을 가진 행렬이다.
여기서 표본 공분산 행렬은 다음과 같이 계산할 수 있다.
:
여기서 은 ''N''×1 크기의 1로 이루어진 벡터이다.
관측치가 열 대신 행으로 배열되어 가 1×''K'' 행 벡터이고 가 ''N''×''K'' 행렬이고 열 ''j''가 변수 ''j''에 대한 ''N''개의 관측치 벡터인 경우, 전치를 적용하면 다음과 같다.
:
다변량 확률 변수의 공분산 행렬과 마찬가지로, 표본 공분산 행렬은 반 양의 정부호 행렬이다. 이를 증명하기 위해, 모든 행렬 에 대해 행렬 가 반 양의 정부호임을 주목해야 한다. 또한, 공분산 행렬은 벡터의 랭크가 K인 경우에만 양의 정부호이다.
4. 표본 평균과 표본 분산의 성질
표본 평균은 표본 내 변수 값들의 평균으로, 그 값들의 합을 값의 개수로 나눈 값이다. 수학적 표기법을 사용하면, 모집단에서 변수 ''X''에 대한 ''N''개의 관측치 표본을 추출할 때, 표본 평균은 다음과 같다.
:
예를 들어 모집단 (1,1,3,4,0,2,1,0)에서 표본 (1, 4, 1)을 추출하면 표본 평균은 가 된다. 이는 모집단 평균 와는 차이가 있을 수 있다. 표본이 무작위로 추출되더라도 완벽하게 모집단을 대표하는 경우는 드물며, 표본이 모두 동일한 모집단에서 추출되었더라도 다른 표본들은 서로 다른 표본 평균을 가질 수 있다. 예를 들어, (2, 1, 0)의 표본 평균은 1이 된다.
만약 ''K''개의 변수에 관심이 있고, 각 관측치가 해당 ''K''개 변수 각각에 대한 값을 갖는다면, 전체 표본 평균은 개별 변수에 대한 ''K''개의 표본 평균으로 구성된다. 를 ''j''번째 확률 변수(''j''=1,...,''K'')에 대한 ''i''번째 독립적으로 추출된 관측치(''i''=1,...,''N'')라고 하자. 이러한 관측치는 ''N''개의 열 벡터로 정렬될 수 있으며, 각 열 벡터는 ''K''개의 항목을 가진다. 모든 변수의 ''i''번째 관측치를 나타내는 ''K''×1 열 벡터는 (''i''=1,...,''N'')로 표시된다.
'''표본 평균 벡터''' 는 ''j''번째 요소 가 ''j''번째 변수에 대한 ''N''개 관측치의 평균값인 열 벡터이다.
:
따라서, 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 다음과 같이 표현된다.
:
4. 1. 불편성 (Unbiasedness)
표본 평균과 표본 공분산은 각각 모평균과 모공분산의 불편 추정량이다.[1] 즉, 표본 평균과 표본 분산의 기댓값은 각각 모평균과 모공분산과 같다. 표본 공분산 행렬의 분모에 대신 을 사용하는 것은 베셀 보정으로, 이를 통해 불편성을 확보한다.[1]표본 공분산은 각 관측치와 표본 평균의 차이에 의존하지만, 표본 평균은 모든 관측치를 기준으로 정의되므로 각 관측치와 약간 상관 관계가 있다. 모집단 평균 가 알려져 있다면, 모집단 평균을 사용하여 유사한 불편 추정치를 구할 수 있다.
:
이 경우 분모에 을 사용한다.
4. 2. 표본 평균의 분포
표본 평균은 확률 변수이며, 자체적인 분포를 갖는다. 표본 평균의 분포는 모집단의 분포에 따라 달라진다.모집단이 정규 분포를 따르는 경우, 표본 평균도 정규 분포를 따른다.[2]
:
여기서
- 는 표본 평균
- 는 모집단 평균
- 는 모집단 분산
- ''n''은 표본 크기
모집단이 정규 분포를 따르지 않더라도, 중심 극한 정리에 의해 표본의 크기 ''n''이 충분히 크면 표본 평균의 분포는 정규 분포에 근사한다. ''n''이 크고 ''σ''2/''n'' < +∞인 경우 표본 평균은 대략 정규 분포를 따른다.
4. 3. 가중 표본 (Weighted Samples)
각 관측값에 가중치가 부여된 가중 표본의 경우, 가중 평균과 가중 공분산을 계산할 수 있다.일반성을 잃지 않고 가중치가 정규화되었다고 가정하면,
:
(만약 정규화되지 않았다면 가중치를 가중치의 합으로 나눈다.)
가중 평균 벡터 는 다음과 같이 계산된다.[3]
:
가중 공분산 행렬 의 요소 는 다음과 같이 계산된다.[3]
:
모든 가중치가 동일하면, 즉 이면 가중 평균 및 공분산은 위에 언급된 (편향된) 표본 평균 및 공분산으로 축소된다.
5. 비판 (Criticism)
표본 평균은 강건 통계량이 아니며 이상치에 민감하다는 비판을 받는다. 따라서 실제 응용 분야에서는 위치 추정에 표본 중앙값, 산포도 추정에 사분위 범위(IQR)를 사용하는 등 강건한 대안을 고려할 수 있다.
5. 1. 강건성 (Robustness)
표본 평균과 표본 공분산은 강건 통계량이 아니며, 이상치에 민감하다. 강건성은 실제 응용 분야에서 종종 원하는 특성이기 때문에, 위치의 경우 표본 중앙값과 같은 분위수 기반 통계량,[4] 산포도의 경우 사분위 범위(IQR)를 비롯한 강건한 대안이 바람직할 수 있다. 다른 대안으로는 절사 추정량을 사용한 절사 평균과 윈저화 평균이 있다.참조
[1]
서적
Applied Multivariate Statistical Analysis
https://books.google[...]
Pearson Prentice Hall
2012-08-10
[2]
서적
Introstat
https://books.google[...]
Juta and Company Ltd.
[3]
간행물
GNU Scientific Library - Reference manual, Version 2.6
http://www.gnu.org/s[...]
[4]
웹사이트
The World Question Center 2006: The Sample Mean
http://www.edge.org/[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com