맨위로가기

표본 평균

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

표본 평균은 모집단의 모평균에 대비되는 개념으로, 표본에서 추출된 값들의 산술 평균을 의미한다. 표본 평균은 표본 내 변수 값들의 평균으로, 해당 값들의 합을 값의 개수로 나눈 값이며, 수학적으로 \bar{X}=\frac{1}{N}\sum_{i=1}^{N}X_{i}.로 표현된다. 표본 평균은 표본 공분산 행렬과 함께 불편성을 가지며, 표본 평균의 분포는 확률 변수이며 자체적인 분포를 갖는다. 표본 평균은 가중 표본에서도 사용되며, 이상치에 민감하다는 비판을 받기도 한다.

더 읽어볼만한 페이지

  • 추정법 - 기댓값 최대화 알고리즘
  • 추정법 - 델파이 기법
    델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.
  • 평균 - 제곱평균제곱근
    제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다.
  • 평균 - 조화 평균
    조화 평균은 양의 실수들의 역수의 산술 평균의 역수로 정의되며, 작은 값에 민감하게 반응하여 비율이나 비를 포함하는 상황에서 유용하게 활용되는 평균의 한 종류이다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
표본 평균

2. 표본 평균 (Sample Mean)

표본 평균은 모집단의 모 평균에 대비되는 개념으로, 표본을 추출하여 그 표본들의 평균을 구해 얻은 값을 말한다. 표본 평균은 모집단의 모평균을 추정하는 데 사용된다.[1] 표본이 무작위로 추출되어도 완벽하게 모집단을 대표하는 경우는 드물며, 같은 모집단에서 추출된 서로 다른 표본들은 서로 다른 표본 평균을 가질 수 있다. 예를 들어 모집단 (1,1,3,4,0,2,1,0)에서 추출된 표본 (2, 1, 0)의 표본 평균은 1이 된다.[1]

2. 1. 표본 평균의 정의

표본 평균(\bar{X})은 표본의 평균으로, 모두 더한 후 n으로 나눈 산술 평균이다.

표본 평균은 표본 내 변수 값들의 평균으로, 해당 값들의 합을 값의 개수로 나눈 값이다. 수학적 표기법을 사용하면, 모집단에서 변수 ''X''에 대한 ''N''개의 관측치 표본을 추출할 때, 표본 평균은 다음과 같다.

: \bar{X}=\frac{1}{N}\sum_{i=1}^{N}X_{i}.

이 정의에 따르면, 모집단 (1, 1, 3, 4, 0, 2, 1, 0)에서 표본 (1, 4, 1)을 추출하면 표본 평균은 \bar{x} = (1+4+1)/3 = 2가 된다.

2. 2. 다변수 표본 평균

만약 통계학자가 하나의 변수가 아닌 ''K''개의 변수에 관심이 있고, 각 관측치가 해당 ''K''개 변수 각각에 대한 값을 갖는다면, 전체 표본 평균은 개별 변수에 대한 ''K''개의 표본 평균으로 구성된다. x_{ij}를 ''j''번째 확률 변수(''j''=1,...,''K'')에 대한 ''i''번째 독립적으로 추출된 관측치(''i''=1,...,''N'')라고 하자. 이러한 관측치는 ''N''개의 열 벡터로 정렬될 수 있으며, 각 열 벡터는 ''K''개의 항목을 가지며, 모든 변수의 ''i''번째 관측치를 나타내는 ''K''×1 열 벡터는 \mathbf{x}_i (''i''=1,...,''N'')로 표시된다.

'''표본 평균 벡터''' \mathbf{\bar{x}}는 ''j''번째 요소 \bar{x}_{j}가 ''j''번째 변수에 대한 ''N''개 관측치의 평균값인 열 벡터이다.

: \bar{x}_{j}=\frac{1}{N} \sum_{i=1}^{N} x_{ij},\quad j=1,\ldots,K.

따라서, 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 다음과 같이 표현된다.

: \mathbf{\bar{x}}=\frac{1}{N}\sum_{i=1}^{N}\mathbf{x}_i = \begin{bmatrix}

\bar{x}_1 \\

\vdots \\

\bar{x}_j \\

\vdots \\

\bar{x}_K

\end{bmatrix}

3. 표본 분산 (Sample Covariance)

표본 분산은 표본의 분산을 나타내는 값으로, 모집단의 모 분산을 추정하는 데 사용된다.[1] 표본 분산과 표본 공분산, 표본 공분산 행렬에 대한 자세한 내용은 하위 섹션을 참고할 수 있다.

3. 1. 표본 분산의 정의

표본 분산은 표본의 분산이다. 모집단의 분산인 모 분산과 비교할 수 있다.

3. 2. 표본 공분산 행렬

'''표본 공분산 행렬'''은 ''K''×''K'' 행렬 \textstyle \mathbf{Q}=\left[ q_{jk}\right] 로, 각 요소는 다음과 같다.

: q_{jk}=\frac{1}{N-1}\sum_{i=1}^{N}\left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right)

여기서 q_{jk}는 데이터의 기반이 되는 모집단의 j번째 변수와 k번째 변수 사이의 공분산에 대한 추정치이다.

관측 벡터의 관점에서 표본 공분산은 다음과 같다.

:\mathbf{Q} = {1 \over {N-1}}\sum_{i=1}^N (\mathbf{x}_i.-\mathbf{\bar{x}}) (\mathbf{x}_i.-\mathbf{\bar{x}})^\mathrm{T}

또는 관측 벡터를 행렬의 열로 배열하면 다음과 같다.

:\mathbf{F} = \begin{bmatrix}\mathbf{x}_1 & \mathbf{x}_2 & \dots & \mathbf{x}_N \end{bmatrix}

이는 ''K''개의 행과 ''N''개의 열을 가진 행렬이다.

여기서 표본 공분산 행렬은 다음과 같이 계산할 수 있다.

:\mathbf{Q} = \frac{1}{N-1}( \mathbf{F} - \mathbf{\bar{x}} \,\mathbf{1}_N^\mathrm{T} ) ( \mathbf{F} - \mathbf{\bar{x}} \,\mathbf{1}_N^\mathrm{T} )^\mathrm{T}

여기서 \mathbf{1}_N은 ''N''×1 크기의 1로 이루어진 벡터이다.

관측치가 열 대신 행으로 배열되어 \mathbf{\bar{x}}가 1×''K'' 행 벡터이고 \mathbf{M}=\mathbf{F}^\mathrm{T}가 ''N''×''K'' 행렬이고 열 ''j''가 변수 ''j''에 대한 ''N''개의 관측치 벡터인 경우, 전치를 적용하면 다음과 같다.

:\mathbf{Q} = \frac{1}{N-1}( \mathbf{M} - \mathbf{1}_N \mathbf{\bar{x}} )^\mathrm{T} ( \mathbf{M} - \mathbf{1}_N \mathbf{\bar{x}} )

다변량 확률 변수의 공분산 행렬과 마찬가지로, 표본 공분산 행렬은 반 양의 정부호 행렬이다. 이를 증명하기 위해, 모든 행렬 \mathbf{A}에 대해 행렬 \mathbf{A}^T\mathbf{A}가 반 양의 정부호임을 주목해야 한다. 또한, 공분산 행렬은 \mathbf{x}_i.-\mathbf{\bar{x}} 벡터의 랭크가 K인 경우에만 양의 정부호이다.

4. 표본 평균과 표본 분산의 성질

표본 평균은 표본 내 변수 값들의 평균으로, 그 값들의 합을 값의 개수로 나눈 값이다. 수학적 표기법을 사용하면, 모집단에서 변수 ''X''에 대한 ''N''개의 관측치 표본을 추출할 때, 표본 평균은 다음과 같다.

: \bar{X}=\frac{1}{N}\sum_{i=1}^{N}X_{i}.

예를 들어 모집단 (1,1,3,4,0,2,1,0)에서 표본 (1, 4, 1)을 추출하면 표본 평균은 \bar{x} = (1+4+1)/3 = 2가 된다. 이는 모집단 평균 \mu = (1+1+3+4+0+2+1+0) /8 = 12/8 = 1.5와는 차이가 있을 수 있다. 표본이 무작위로 추출되더라도 완벽하게 모집단을 대표하는 경우는 드물며, 표본이 모두 동일한 모집단에서 추출되었더라도 다른 표본들은 서로 다른 표본 평균을 가질 수 있다. 예를 들어, (2, 1, 0)의 표본 평균은 1이 된다.

만약 ''K''개의 변수에 관심이 있고, 각 관측치가 해당 ''K''개 변수 각각에 대한 값을 갖는다면, 전체 표본 평균은 개별 변수에 대한 ''K''개의 표본 평균으로 구성된다. x_{ij}를 ''j''번째 확률 변수(''j''=1,...,''K'')에 대한 ''i''번째 독립적으로 추출된 관측치(''i''=1,...,''N'')라고 하자. 이러한 관측치는 ''N''개의 열 벡터로 정렬될 수 있으며, 각 열 벡터는 ''K''개의 항목을 가진다. 모든 변수의 ''i''번째 관측치를 나타내는 ''K''×1 열 벡터는 \mathbf{x}_i (''i''=1,...,''N'')로 표시된다.

'''표본 평균 벡터''' \mathbf{\bar{x}}는 ''j''번째 요소 \bar{x}_{j}가 ''j''번째 변수에 대한 ''N''개 관측치의 평균값인 열 벡터이다.

: \bar{x}_{j}=\frac{1}{N} \sum_{i=1}^{N} x_{ij},\quad j=1,\ldots,K.

따라서, 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 다음과 같이 표현된다.

: \mathbf{\bar{x}}=\frac{1}{N}\sum_{i=1}^{N}\mathbf{x}_i = \begin{bmatrix}

\bar{x}_1 \\

\vdots \\

\bar{x}_j \\

\vdots \\

\bar{x}_K

\end{bmatrix}

4. 1. 불편성 (Unbiasedness)

표본 평균과 표본 공분산은 각각 모평균과 모공분산의 불편 추정량이다.[1] 즉, 표본 평균과 표본 분산의 기댓값은 각각 모평균과 모공분산과 같다. 표본 공분산 행렬의 분모에 N 대신 N-1을 사용하는 것은 베셀 보정으로, 이를 통해 불편성을 확보한다.[1]

표본 공분산은 각 관측치와 표본 평균의 차이에 의존하지만, 표본 평균은 모든 관측치를 기준으로 정의되므로 각 관측치와 약간 상관 관계가 있다. 모집단 평균 \operatorname{E}(\mathbf{X})가 알려져 있다면, 모집단 평균을 사용하여 유사한 불편 추정치를 구할 수 있다.

: q_{jk}=\frac{1}{N}\sum_{i=1}^N \left( x_{ij}-\operatorname{E}(X_j)\right) \left( x_{ik}-\operatorname{E}(X_k)\right),

이 경우 분모에 \textstyle N을 사용한다.

4. 2. 표본 평균의 분포

표본 평균은 확률 변수이며, 자체적인 분포를 갖는다. 표본 평균의 분포는 모집단의 분포에 따라 달라진다.

모집단이 정규 분포를 따르는 경우, 표본 평균도 정규 분포를 따른다.[2]

:\bar{x} \thicksim N\left\{\mu, \frac{\sigma^2}{n}\right\}.

여기서

  • \bar{x}는 표본 평균
  • \mu는 모집단 평균
  • \sigma^2는 모집단 분산
  • ''n''은 표본 크기


모집단이 정규 분포를 따르지 않더라도, 중심 극한 정리에 의해 표본의 크기 ''n''이 충분히 크면 표본 평균의 분포는 정규 분포에 근사한다. ''n''이 크고 ''σ''2/''n'' < +∞인 경우 표본 평균은 대략 정규 분포를 따른다.

4. 3. 가중 표본 (Weighted Samples)

각 관측값에 가중치가 부여된 가중 표본의 경우, 가중 평균과 가중 공분산을 계산할 수 있다.

일반성을 잃지 않고 가중치가 정규화되었다고 가정하면,

: \sum_{i=1}^{N}w_i = 1.

(만약 정규화되지 않았다면 가중치를 가중치의 합으로 나눈다.)

가중 평균 벡터 \textstyle \mathbf{\bar{x}}는 다음과 같이 계산된다.[3]

: \mathbf{\bar{x}}=\sum_{i=1}^N w_i \mathbf{x}_i.

가중 공분산 행렬 \textstyle \mathbf{Q}의 요소 q_{jk}는 다음과 같이 계산된다.[3]

: q_{jk}=\frac{1}{1-\sum_{i=1}^{N}w_i^2}

\sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) .

모든 가중치가 동일하면, 즉 \textstyle w_{i}=1/N이면 가중 평균 및 공분산은 위에 언급된 (편향된) 표본 평균 및 공분산으로 축소된다.

5. 비판 (Criticism)

표본 평균은 강건 통계량이 아니며 이상치에 민감하다는 비판을 받는다. 따라서 실제 응용 분야에서는 위치 추정에 표본 중앙값, 산포도 추정에 사분위 범위(IQR)를 사용하는 등 강건한 대안을 고려할 수 있다.

5. 1. 강건성 (Robustness)

표본 평균과 표본 공분산은 강건 통계량이 아니며, 이상치에 민감하다. 강건성은 실제 응용 분야에서 종종 원하는 특성이기 때문에, 위치의 경우 표본 중앙값과 같은 분위수 기반 통계량,[4] 산포도의 경우 사분위 범위(IQR)를 비롯한 강건한 대안이 바람직할 수 있다. 다른 대안으로는 절사 추정량을 사용한 절사 평균과 윈저화 평균이 있다.

참조

[1] 서적 Applied Multivariate Statistical Analysis https://books.google[...] Pearson Prentice Hall 2012-08-10
[2] 서적 Introstat https://books.google[...] Juta and Company Ltd.
[3] 간행물 GNU Scientific Library - Reference manual, Version 2.6 http://www.gnu.org/s[...]
[4] 웹사이트 The World Question Center 2006: The Sample Mean http://www.edge.org/[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com