표본 평균
1. 개요
표본 평균은 모집단의 모평균에 대비되는 개념으로, 표본에서 추출된 값들의 산술 평균을 의미한다. 표본 평균은 표본 내 변수 값들의 평균으로, 해당 값들의 합을 값의 개수로 나눈 값이며, 수학적으로 로 표현된다. 표본 평균은 표본 공분산 행렬과 함께 불편성을 가지며, 표본 평균의 분포는 확률 변수이며 자체적인 분포를 갖는다. 표본 평균은 가중 표본에서도 사용되며, 이상치에 민감하다는 비판을 받기도 한다.
-
추정법 -
기댓값 최대화 알고리즘
-
추정법 -
델파이 기법
델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다. -
통계학 -
확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. -
통계학 -
사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다. -
평균 -
제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다. -
평균 -
조화 평균
조화 평균은 양의 실수들의 역수의 산술 평균의 역수로 정의되며, 작은 값에 민감하게 반응하여 비율이나 비를 포함하는 상황에서 유용하게 활용되는 평균의 한 종류이다.
2. 표본 평균 (Sample Mean)
표본 평균은 모집단의 모 평균에 대비되는 개념으로, 표본을 추출하여 그 표본들의 평균을 구해 얻은 값을 말한다. 표본 평균은 모집단의 모평균을 추정하는 데 사용된다. 표본이 무작위로 추출되어도 완벽하게 모집단을 대표하는 경우는 드물며, 같은 모집단에서 추출된 서로 다른 표본들은 서로 다른 표본 평균을 가질 수 있다. 예를 들어 모집단 (1,1,3,4,0,2,1,0)에서 추출된 표본 (2, 1, 0)의 표본 평균은 1이 된다.
2.1. 표본 평균의 정의
표본 평균()은 표본의 평균으로, 모두 더한 후 n으로 나눈 산술 평균이다.
표본 평균은 표본 내 변수 값들의 평균으로, 해당 값들의 합을 값의 개수로 나눈 값이다. 수학적 표기법을 사용하면, 모집단에서 변수 X에 대한 N개의 관측치 표본을 추출할 때, 표본 평균은 다음과 같다.
:
이 정의에 따르면, 모집단 (1, 1, 3, 4, 0, 2, 1, 0)에서 표본 (1, 4, 1)을 추출하면 표본 평균은 가 된다.
2.2. 다변수 표본 평균
만약 통계학자가 하나의 변수가 아닌 K개의 변수에 관심이 있고, 각 관측치가 해당 K개 변수 각각에 대한 값을 갖는다면, 전체 표본 평균은 개별 변수에 대한 K개의 표본 평균으로 구성된다. 를 j번째 확률 변수(j=1,...,K)에 대한 i번째 독립적으로 추출된 관측치(i=1,...,N)라고 하자. 이러한 관측치는 N개의 열 벡터로 정렬될 수 있으며, 각 열 벡터는 K개의 항목을 가지며, 모든 변수의 i번째 관측치를 나타내는 K×1 열 벡터는 (i=1,...,N)로 표시된다.
표본 평균 벡터 는 j번째 요소 가 j번째 변수에 대한 N개 관측치의 평균값인 열 벡터이다.
:
따라서, 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 다음과 같이 표현된다.
:
3. 표본 분산 (Sample Covariance)
표본 분산은 표본의 분산을 나타내는 값으로, 모집단의 모 분산을 추정하는 데 사용된다. 표본 분산과 표본 공분산, 표본 공분산 행렬에 대한 자세한 내용은 하위 섹션을 참고할 수 있다.
3.2. 표본 공분산 행렬
표본 공분산 행렬은 K×K 행렬 로, 각 요소는 다음과 같다.
:
여기서 는 데이터의 기반이 되는 모집단의 j번째 변수와 k번째 변수 사이의 공분산에 대한 추정치이다.
관측 벡터의 관점에서 표본 공분산은 다음과 같다.
:
또는 관측 벡터를 행렬의 열로 배열하면 다음과 같다.
:
이는 K개의 행과 N개의 열을 가진 행렬이다.
여기서 표본 공분산 행렬은 다음과 같이 계산할 수 있다.
:
여기서 은 N×1 크기의 1로 이루어진 벡터이다.
관측치가 열 대신 행으로 배열되어 가 1×K 행 벡터이고 가 N×K 행렬이고 열 j가 변수 j에 대한 N개의 관측치 벡터인 경우, 전치를 적용하면 다음과 같다.
:
다변량 확률 변수의 공분산 행렬과 마찬가지로, 표본 공분산 행렬은 반 양의 정부호 행렬이다. 이를 증명하기 위해, 모든 행렬 에 대해 행렬 가 반 양의 정부호임을 주목해야 한다. 또한, 공분산 행렬은 벡터의 랭크가 K인 경우에만 양의 정부호이다.
4. 표본 평균과 표본 분산의 성질
표본 평균은 표본 내 변수 값들의 평균으로, 그 값들의 합을 값의 개수로 나눈 값이다. 수학적 표기법을 사용하면, 모집단에서 변수 X에 대한 N개의 관측치 표본을 추출할 때, 표본 평균은 다음과 같다.
:
예를 들어 모집단 (1,1,3,4,0,2,1,0)에서 표본 (1, 4, 1)을 추출하면 표본 평균은 가 된다. 이는 모집단 평균 와는 차이가 있을 수 있다. 표본이 무작위로 추출되더라도 완벽하게 모집단을 대표하는 경우는 드물며, 표본이 모두 동일한 모집단에서 추출되었더라도 다른 표본들은 서로 다른 표본 평균을 가질 수 있다. 예를 들어, (2, 1, 0)의 표본 평균은 1이 된다.
만약 K개의 변수에 관심이 있고, 각 관측치가 해당 K개 변수 각각에 대한 값을 갖는다면, 전체 표본 평균은 개별 변수에 대한 K개의 표본 평균으로 구성된다. 를 j번째 확률 변수(j=1,...,K)에 대한 i번째 독립적으로 추출된 관측치(i=1,...,N)라고 하자. 이러한 관측치는 N개의 열 벡터로 정렬될 수 있으며, 각 열 벡터는 K개의 항목을 가진다. 모든 변수의 i번째 관측치를 나타내는 K×1 열 벡터는 (i=1,...,N)로 표시된다.
표본 평균 벡터 는 j번째 요소 가 j번째 변수에 대한 N개 관측치의 평균값인 열 벡터이다.
:
따라서, 표본 평균 벡터는 각 변수에 대한 관측치의 평균을 포함하며, 다음과 같이 표현된다.
:
4.1. 불편성 (Unbiasedness)
표본 평균과 표본 공분산은 각각 모평균과 모공분산의 불편 추정량이다. 즉, 표본 평균과 표본 분산의 기댓값은 각각 모평균과 모공분산과 같다. 표본 공분산 행렬의 분모에 대신 을 사용하는 것은 베셀 보정으로, 이를 통해 불편성을 확보한다.
표본 공분산은 각 관측치와 표본 평균의 차이에 의존하지만, 표본 평균은 모든 관측치를 기준으로 정의되므로 각 관측치와 약간 상관 관계가 있다. 모집단 평균 가 알려져 있다면, 모집단 평균을 사용하여 유사한 불편 추정치를 구할 수 있다.
:
이 경우 분모에 을 사용한다.
4.2. 표본 평균의 분포
표본 평균은 확률 변수이며, 자체적인 분포를 갖는다. 표본 평균의 분포는 모집단의 분포에 따라 달라진다.
모집단이 정규 분포를 따르는 경우, 표본 평균도 정규 분포를 따른다.
:
여기서
* 는 표본 평균
* 는 모집단 평균
* 는 모집단 분산
* n은 표본 크기
모집단이 정규 분포를 따르지 않더라도, 중심 극한 정리에 의해 표본의 크기 n이 충분히 크면 표본 평균의 분포는 정규 분포에 근사한다. n이 크고 σ2/n < +∞인 경우 표본 평균은 대략 정규 분포를 따른다.
4.3. 가중 표본 (Weighted Samples)
각 관측값에 가중치가 부여된 가중 표본의 경우, 가중 평균과 가중 공분산을 계산할 수 있다.
일반성을 잃지 않고 가중치가 정규화되었다고 가정하면,
:
(만약 정규화되지 않았다면 가중치를 가중치의 합으로 나눈다.)
가중 평균 벡터 는 다음과 같이 계산된다.
:
가중 공분산 행렬 의 요소 는 다음과 같이 계산된다.
:
모든 가중치가 동일하면, 즉 이면 가중 평균 및 공분산은 위에 언급된 (편향된) 표본 평균 및 공분산으로 축소된다.
5. 비판 (Criticism)
표본 평균은 강건 통계량이 아니며 이상치에 민감하다는 비판을 받는다. 따라서 실제 응용 분야에서는 위치 추정에 표본 중앙값, 산포도 추정에 사분위 범위(IQR)를 사용하는 등 강건한 대안을 고려할 수 있다.