맨위로가기

평균 제곱 오차

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

평균 제곱 오차(MSE)는 예측 변수나 추정량의 품질을 평가하는 데 사용되는 척도이다. 예측값과 실제 값의 차이를 제곱하여 평균을 낸 값으로, 유클리드 거리의 제곱에서 파생되어 항상 양수 값을 가지며, 오차가 작을수록 0에 가까워진다. MSE는 추정량의 분산과 편향의 제곱의 합으로 표현될 수 있으며, 회귀 분석, 통계적 모델링, 기계 학습 등 다양한 분야에서 활용된다. MSE는 최소 평균 제곱 오차(MMSE) 추정기를 선택하는 기준으로 사용되며, 손실 함수로도 활용되지만, 이상치에 민감하다는 단점도 있다.

더 읽어볼만한 페이지

  • 최소제곱법 - 잔차 제곱합
    잔차 제곱합(RSS)은 통계학에서 회귀 모델의 적합도를 평가하는 지표로, 예측값과 실제 값의 차이를 제곱하여 합산한 값이며, 결정 계수가 1에 가까울수록 회귀 모델이 데이터를 더 잘 설명한다.
  • 최소제곱법 - 정규방정식
    정규 방정식은 선형 모델에서 파라미터를 추정하는 데 사용되는 공식으로, 최소제곱법을 통해 파라미터를 추정하고 예측값을 계산하며, `XTX`가 가역 행렬일 경우 ${\hat {\beta }}=(X^{T}X)^{-1}X^{T}y$ 로 표현되는 OLS 추정량을 구할 수 있다.
평균 제곱 오차
개요
명칭평균 제곱 오차
영어 명칭Mean Squared Error (MSE)
정의추정값의 오차 크기를 나타내는 측도
용도예측의 정확성 측정, 모델 성능 평가
수식 및 계산
공식MSE = (1/n) * Σ(예측값 - 실제값)²
n데이터 포인트의 수
Σ합계
예측값모델이 예측한 값
실제값실제 관측된 값
계산 방법각 데이터 포인트에 대해 (예측값 - 실제값)을 제곱한 후, 모든 제곱 오차를 합산하고 데이터 포인트 수로 나눔
활용 및 해석
주요 활용 분야회귀 분석
시계열 분석
머신러닝 모델 평가
MSE 값이 낮을수록모델의 예측 정확도가 높음
MSE 값이 높을수록모델의 예측 정확도가 낮음
장점계산이 간단하고 직관적
이상치에 민감하게 반응하여 모델 개선에 활용 가능
단점오차의 단위가 제곱되므로 실제 오차 크기 해석에 주의 필요
이상치에 민감하여 모델 성능을 과장되게 평가할 수 있음
관련 개념
오차예측값과 실제값의 차이
평균 절대 오차 (MAE)오차의 절대값에 대한 평균
평균 제곱근 오차 (RMSE)MSE의 제곱근
결정 계수 (R²)모델의 설명력을 나타내는 지표

2. 정의 및 기본 성질

평균 제곱 오차(MSE)는 예측 변수(predictor) 또는 추정량(estimator)의 품질을 평가하는 지표이다.[1] MSE는 유클리드 거리의 제곱에서 파생되었으므로 항상 양수이며, 오차가 감소함에 따라 0에 가까워진다. MSE는 제곱 오차의 기대값에 해당하는 위험 함수의 일종이다.[13] MSE가 0이 아닌 양수인 이유는 무작위성 또는 제외 변수 편향 때문이다.[14] 기계 학습에서 MSE는 실제 MSE(모집단의 실제 평균 손실)를 추정하는 "경험적" 손실(관측된 데이터의 평균 손실)을 나타낸다.

2. 1. 예측 변수 (Predictor)

MSE는 임의의 입력을 일부 확률 변수의 값의 표본에 매핑하는 함수인 ''예측 변수''의 품질을 평가한다. 예측 구간을 함께 활용하면 미래의 관측치가 특정 확률로 포함될 범위를 파악할 수 있어 유용하다.

만약 n개의 예측 벡터가 모든 변수에 대한 n개 데이터 포인트의 표본에서 생성되고, Y가 예측되는 변수의 관측값 벡터이고, \hat{Y}가 예측값(예: 최소 제곱법에서)인 경우, 예측 변수의 표본 내 MSE는 다음과 같이 계산된다.

:\operatorname{MSE}=\frac{1}{n} \sum_{i=1}^n \left(Y_i-\hat{Y_i}\right)^2

다시 말해, MSE는 ''오차 제곱'' \left(Y_i-\hat{Y_i}\right)^2의 ''평균'' \left(\frac{1}{n} \sum_{i=1}^n \right)이다. 이는 특정 표본에 대해 쉽게 계산할 수 있는 값이며 (따라서 표본에 따라 달라진다).

행렬 곱셈 표기법으로 나타내면 다음과 같다.

:\operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(e_i)^2=\frac{1}{n}\mathbf e^\mathsf T \mathbf e

여기서 e_i (Y_i-\hat{Y_i}) 이고 \mathbf e n \times 1 열 벡터이다.

MSE는 모델 추정에 사용되지 않은 ''q''개의 데이터 포인트에 대해서도 계산할 수 있는데, 이는 이 목적을 위해 보류되었거나, 이러한 데이터가 새롭게 얻어졌기 때문이다. 교차 검증이라고 알려진 이 과정에서 MSE는 종종 테스트 MSE[4]라고 불리며, 다음과 같이 계산된다.

:\operatorname{MSE} = \frac{1}{q} \sum_{i=n+1}^{n+q} \left(Y_i-\hat{Y_i}\right)^2

2. 2. 추정량 (Estimator)

미지의 파라미터 \theta에 대한 추정량 \hat{\theta}의 평균 제곱 오차(MSE)는 다음과 같이 정의된다.[1]

:\operatorname{MSE}(\hat{\theta})=\operatorname{E}_{\theta}\left[(\hat{\theta}-\theta)^2\right].

이 정의는 미지의 파라미터에 의존하지만, MSE는 추정량의 ''사전적'' 속성이다. MSE는 미지의 파라미터의 함수일 수 있으며, 이 경우 이러한 파라미터의 추정을 기반으로 하는 MSE의 모든 ''추정량''은 데이터의 함수(따라서 확률 변수)가 된다. 추정량 \hat{\theta}가 표본 통계량으로 파생되어 어떤 모집단 파라미터를 추정하는 데 사용되는 경우, 기대값은 표본 통계량의 표본 분포에 대한 것이다.

MSE는 추정량의 분산과 추정량의 제곱된 편향의 합으로 표현될 수 있으며, MSE를 계산하는 데 유용한 방법을 제공하고, 편향되지 않은 추정량의 경우 MSE와 분산이 동일하다는 것을 의미한다.[5]

:\operatorname{MSE}(\hat{\theta})=\operatorname{Var}_{\theta}(\hat{\theta})+ \operatorname{Bias}(\hat{\theta},\theta)^2.

이는 다음과 같이 증명할 수 있다.

:\begin{align}

\operatorname{MSE}(\hat{\theta})

&= \operatorname{E}_{\theta} \left [(\hat{\theta}-\theta)^2 \right ] \\

&= \operatorname{E}_{\theta}\left[\left(\hat{\theta}-\operatorname{E}_{\theta} [\hat\theta]+\operatorname{E}_{\theta}[\hat\theta]-\theta\right)^2\right]\\

&= \operatorname{E}_{\theta}\left[\left(\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta]\right)^2 +2\left (\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta] \right ) \left (\operatorname{E}_{\theta}[\hat\theta]-\theta \right )+\left( \operatorname{E}_{\theta}[\hat\theta]-\theta \right)^2\right] \\

&= \operatorname{E}_{\theta}\left[\left(\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta]\right)^2\right]+\operatorname{E}_{\theta}\left[2 \left (\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta] \right ) \left (\operatorname{E}_{\theta}[\hat\theta]-\theta \right ) \right] + \operatorname{E}_{\theta}\left [ \left(\operatorname{E}_{\theta}[\hat\theta]-\theta\right)^2 \right] \\

&= \operatorname{E}_{\theta}\left[\left(\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta]\right)^2\right]+ 2 \left(\operatorname{E}_{\theta}[\hat\theta]-\theta\right) \operatorname{E}_{\theta}\left[\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta] \right] + \left(\operatorname{E}_{\theta}[\hat\theta]-\theta\right)^2 && \operatorname{E}_{\theta}[\hat\theta]-\theta = \text{const.} \\

&= \operatorname{E}_{\theta}\left[\left(\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta]\right)^2\right]+ 2 \left(\operatorname{E}_{\theta}[\hat\theta]-\theta\right) \left ( \operatorname{E}_{\theta}[\hat\theta}]-\operatorname{E}_{\theta}[\hat\theta}] \right )+ \left(\operatorname{E}_{\theta}[\hat\theta]-\theta\right)^2 && \operatorname{E}_{\theta}[\hat\theta] = \text{const.} \\

&= \operatorname{E}_{\theta}\left[\left(\hat{\theta}-\operatorname{E}_{\theta}[\hat\theta]\right)^2\right]+\left(\operatorname{E}_{\theta}[\hat\theta]-\theta\right)^2\\

&= \operatorname{Var}_{\theta}(\hat\theta)+ \operatorname{Bias}_{\theta}(\hat\theta,\theta)^2

\end{align}

더 짧은 증명은 임의 변수 X에 대한 공식 \mathbb{E}(X^2) = \operatorname{Var}(X) + (\mathbb{E}(X))^2을 사용하여 얻을 수 있다. X\hat\theta-\theta로 대체하면 다음과 같다.

:\begin{aligned}

\operatorname{MSE}(\hat{\theta}) &= \mathbb{E}[(\hat\theta-\theta)^2] \\

&= \operatorname{Var}(\hat{\theta} - \theta) + (\mathbb{E}[\hat\theta - \theta])^2 \\

&= \operatorname{Var}(\hat{\theta}) + \operatorname{Bias}^2(\hat{\theta},\theta)

\end{aligned}

MSE는 추정량의 질을 측정하는 척도이며, 유클리드 거리의 제곱에서 파생되었으므로 항상 양수이고, 오차가 감소함에 따라 0에 가까워진다.

3. 회귀 분석에서의 MSE

회귀 분석에서 그래프를 그리는 것은 전체 데이터의 전반적인 추세를 파악하는 더 자연스러운 방법이다. 각 점과 예측된 회귀 모델 사이의 거리 평균을 계산하여 평균 제곱 오차(MSE)로 나타낼 수 있다. 제곱은 음수 부호로 인한 복잡성을 줄이는 데 매우 중요하다.[6] MSE를 최소화하는 모델은 더 정확하며, 이는 모델이 실제 데이터에 더 가깝다는 것을 의미한다.

이 방법을 사용하는 선형 회귀의 한 예는 최소 제곱법이다. 최소 제곱법은 이변량 데이터를 모델링하는 데 선형 회귀 모델의 적합성을 평가하지만,[6] 데이터의 알려진 분포와 관련하여 한계가 있다. 최소 제곱법은 MSE를 최소화하는 선형 회귀 모델을 찾는 방법 중 하나이다.

"평균 제곱 오차"라는 용어는 때때로 오차 분산의 편향되지 않은 추정값을 지칭하는 데 사용되기도 한다. 즉, 잔차 제곱합을 자유도로 나눈 값이다.[7]

회귀 분석에서 "평균 제곱 오차"는 종종 평균 제곱 예측 오차(MSPE) 또는 "표본 외 평균 제곱 오차"라고도 하며, 특정 표본 공간에서 추정된 모델에 의해 생성된 테스트 공간 밖에서 예측과 실제 값 간의 제곱 편차의 평균값을 나타낼 수 있다.

경사 하강 알고리즘의 맥락에서, 미분 후 계산의 편의를 위해 MSE에 1/2을 곱한 값을 사용하기도 한다.

4. 예시

평균 제곱 오차(MSE)의 추정치에 대한 예시는 다음과 같다.

=== 평균 ===

모집단에서 크기 ''n''인 임의 표본 X_1,\dots,X_n이 있다고 가정해 보자. 표본 단위는 복원 추출 방식으로 선택되었다고 가정한다. 즉, ''n''개의 단위가 한 번에 하나씩 선택되며, 이전에 선택된 단위도 ''n''번의 추출 모두에서 선택될 수 있다. \mu에 대한 일반적인 추정량은 표본 평균이다.

:\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i

이는 참 평균 \mu와 같은 기댓값을 가지며(따라서 편향되지 않음), 평균 제곱 오차는 다음과 같다.[1]

:\operatorname{MSE}\left(\overline{X}\right)=\operatorname{E}\left[\left(\overline{X}-\mu\right)^2\right]=\left(\frac{\sigma}{\sqrt{n}}\right)^2= \frac{\sigma^2}{n}

여기서 \sigma^2는 모집단 분산이다.

정규 분포의 경우, 이는 최량 불편 추정량이다(즉, 모든 불편 추정량 중에서 MSE가 가장 낮음). 그러나, 예를 들어, 균등 분포의 경우에는 그렇지 않다.

=== 분산 ===

분산에 대한 일반적인 추정량은 ''수정된 표본 분산''이다.

:S^2_{n-1} = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X} \right)^2 =\frac{1}{n-1}\left(\sum_{i=1}^n X_i^2-n\overline{X}^2\right).

이것은 불편 추정량이며 (기대값은 \sigma^2이다), 따라서 ''불편 표본 분산''이라고도 하며, 평균 제곱 오차는 다음과 같다.[8]

:\operatorname{MSE}(S^2_{n-1})= \frac{1}{n} \left(\mu_4-\frac{n-3}{n-1}\sigma^4\right) =\frac{1}{n} \left(\gamma_2+\frac{2n}{n-1}\right)\sigma^4,

여기서 \mu_4는 분포 또는 모집단의 네 번째 중심 모멘트이며, \gamma_2=\mu_4/\sigma^4-3은 첨도 초과이다.

그러나 \sigma^2에 대해 S^2_{n-1}에 비례하는 다른 추정량을 사용할 수 있으며, 적절한 선택은 항상 더 낮은 평균 제곱 오차를 제공할 수 있다. 만약 다음과 같이 정의한다면

:S^2_a = \frac{n-1}{a}S^2_{n-1}= \frac{1}{a}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2

다음과 같이 계산할 수 있다.

:\begin{align}

\operatorname{MSE}(S^2_a)

&=\operatorname{E}\left[\left(\frac{n-1}{a} S^2_{n-1}-\sigma^2\right)^2 \right] \\

&= \operatorname{E}\left[ \frac{(n-1)^2}{a^2} S^4_{n-1} -2 \left ( \frac{n-1}{a} S^2_{n-1} \right ) \sigma^2 + \sigma^4 \right ] \\

&= \frac{(n-1)^2}{a^2} \operatorname{E}\left[ S^4_{n-1} \right ] - 2 \left ( \frac{n-1}{a}\right ) \operatorname{E}\left[ S^2_{n-1} \right ] \sigma^2 + \sigma^4 \\

&= \frac{(n-1)^2}{a^2} \operatorname{E}\left[ S^4_{n-1} \right ] - 2 \left ( \frac{n-1}{a}\right ) \sigma^4 + \sigma^4 && \operatorname{E}\left[ S^2_{n-1} \right ] = \sigma^2 \\

&= \frac{(n-1)^2}{a^2} \left ( \frac{\gamma_2}{n} + \frac{n+1}{n-1} \right ) \sigma^4- 2 \left ( \frac{n-1}{a}\right ) \sigma^4+\sigma^4 && \operatorname{E}\left[ S^4_{n-1} \right ] = \operatorname{MSE}(S^2_{n-1}) + \sigma^4 \\

&=\frac{n-1}{n a^2} \left ((n-1)\gamma_2+n^2+n \right ) \sigma^4- 2 \left ( \frac{n-1}{a}\right ) \sigma^4+\sigma^4

\end{align}

이것은 다음일 때 최소화된다.

:a=\frac{(n-1)\gamma_2+n^2+n}{n} = n+1+\frac{n-1}{n}\gamma_2.

\gamma_2=0정규 분포의 경우, 이는 합계를 a=n+1로 나눌 때 평균 제곱 오차가 최소화된다는 것을 의미한다. 최소 첨도 초과는 \gamma_2=-2이며, 이는 ''p'' = 1/2인 베르누이 분포(동전 던지기)에 의해 달성되며, 평균 제곱 오차는 a=n-1+\tfrac{2}{n}.에 대해 최소화된다. 따라서 첨도에 관계없이, 불편 추정량을 약간 축소함으로써 "더 나은" 추정(더 낮은 평균 제곱 오차를 갖는다는 의미에서)을 얻게 된다. 이것은 수축 추정량의 간단한 예이다. 즉, 추정량을 0으로 "수축"한다(불편 추정량을 축소한다).

또한, 수정된 표본 분산은 정규 분포의 분산에 대한 최적 불편 추정량 (불편 추정량 중 최소 평균 제곱 오차)이지만, 분포가 정규 분포가 아닌 경우, 불편 추정량 중에서도 분산의 최적 불편 추정량이 S^2_{n-1}.이 아닐 수 있다.

=== 정규 분포 ===

정규 분포에서 평균 및 분산 추정량의 평균 제곱 오차(MSE)는 다음과 같다.[9]

실제 값추정치평균 제곱 오차
\theta=\mu\hat{\theta} = 모집단 평균의 불편 추정량, \overline{X}=\frac{1}{n}\sum_{i=1}^n(X_i)\operatorname{MSE}(\overline{X})=\operatorname{E}((\overline{X}-\mu)^2)=\left(\frac{\sigma}{\sqrt{n}}\right)^2
\theta=\sigma^2\hat{\theta} = 모집단 분산의 불편 추정량, S^2_{n-1} = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\operatorname{MSE}(S^2_{n-1})=\operatorname{E}((S^2_{n-1}-\sigma^2)^2)=\frac{2}{n - 1}\sigma^4
\theta=\sigma^2\hat{\theta} = 모집단 분산의 편향 추정량, S^2_{n} = \frac{1}{n}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\operatorname{MSE}(S^2_{n})=\operatorname{E}((S^2_{n}-\sigma^2)^2)=\frac{2n - 1}{n^2}\sigma^4
\theta=\sigma^2\hat{\theta} = 모집단 분산의 편향 추정량, S^2_{n+1} = \frac{1}{n+1}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\operatorname{MSE}(S^2_{n+1})=\operatorname{E}((S^2_{n+1}-\sigma^2)^2)=\frac{2}{n + 1}\sigma^4


4. 1. 평균

모집단에서 크기 ''n''인 임의 표본 X_1,\dots,X_n이 있다고 가정해 보자. 표본 단위는 복원 추출 방식으로 선택되었다고 가정한다. 즉, ''n''개의 단위가 한 번에 하나씩 선택되며, 이전에 선택된 단위도 ''n''번의 추출 모두에서 선택될 수 있다. \mu에 대한 일반적인 추정량은 표본 평균이다.

:\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i

이는 참 평균 \mu와 같은 기댓값을 가지며(따라서 편향되지 않음), 평균 제곱 오차는 다음과 같다.[1]

:\operatorname{MSE}\left(\overline{X}\right)=\operatorname{E}\left[\left(\overline{X}-\mu\right)^2\right]=\left(\frac{\sigma}{\sqrt{n}}\right)^2= \frac{\sigma^2}{n}

여기서 \sigma^2는 모집단 분산이다.

정규 분포의 경우, 이는 최량 불편 추정량이다(즉, 모든 불편 추정량 중에서 MSE가 가장 낮음). 그러나, 예를 들어, 균등 분포의 경우에는 그렇지 않다.

4. 2. 분산

분산에 대한 일반적인 추정량은 ''수정된 표본 분산''이다.

:S^2_{n-1} = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X} \right)^2 =\frac{1}{n-1}\left(\sum_{i=1}^n X_i^2-n\overline{X}^2\right).

이것은 불편 추정량이며 (기대값은 \sigma^2이다), 따라서 ''불편 표본 분산''이라고도 하며, 평균 제곱 오차는 다음과 같다.[8]

:\operatorname{MSE}(S^2_{n-1})= \frac{1}{n} \left(\mu_4-\frac{n-3}{n-1}\sigma^4\right) =\frac{1}{n} \left(\gamma_2+\frac{2n}{n-1}\right)\sigma^4,

여기서 \mu_4는 분포 또는 모집단의 네 번째 중심 모멘트이며, \gamma_2=\mu_4/\sigma^4-3은 첨도 초과이다.

그러나 \sigma^2에 대해 S^2_{n-1}에 비례하는 다른 추정량을 사용할 수 있으며, 적절한 선택은 항상 더 낮은 평균 제곱 오차를 제공할 수 있다. 만약 다음과 같이 정의한다면

:S^2_a = \frac{n-1}{a}S^2_{n-1}= \frac{1}{a}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2

다음과 같이 계산할 수 있다.

:\begin{align}

\operatorname{MSE}(S^2_a)

&=\operatorname{E}\left[\left(\frac{n-1}{a} S^2_{n-1}-\sigma^2\right)^2 \right] \\

&= \operatorname{E}\left[ \frac{(n-1)^2}{a^2} S^4_{n-1} -2 \left ( \frac{n-1}{a} S^2_{n-1} \right ) \sigma^2 + \sigma^4 \right ] \\

&= \frac{(n-1)^2}{a^2} \operatorname{E}\left[ S^4_{n-1} \right ] - 2 \left ( \frac{n-1}{a}\right ) \operatorname{E}\left[ S^2_{n-1} \right ] \sigma^2 + \sigma^4 \\

&= \frac{(n-1)^2}{a^2} \operatorname{E}\left[ S^4_{n-1} \right ] - 2 \left ( \frac{n-1}{a}\right ) \sigma^4 + \sigma^4 && \operatorname{E}\left[ S^2_{n-1} \right ] = \sigma^2 \\

&= \frac{(n-1)^2}{a^2} \left ( \frac{\gamma_2}{n} + \frac{n+1}{n-1} \right ) \sigma^4- 2 \left ( \frac{n-1}{a}\right ) \sigma^4+\sigma^4 && \operatorname{E}\left[ S^4_{n-1} \right ] = \operatorname{MSE}(S^2_{n-1}) + \sigma^4 \\

&=\frac{n-1}{n a^2} \left ((n-1)\gamma_2+n^2+n \right ) \sigma^4- 2 \left ( \frac{n-1}{a}\right ) \sigma^4+\sigma^4

\end{align}

이것은 다음일 때 최소화된다.

:a=\frac{(n-1)\gamma_2+n^2+n}{n} = n+1+\frac{n-1}{n}\gamma_2.

\gamma_2=0정규 분포의 경우, 이는 합계를 a=n+1로 나눌 때 평균 제곱 오차가 최소화된다는 것을 의미한다. 최소 첨도 초과는 \gamma_2=-2이며, 이는 ''p'' = 1/2인 베르누이 분포(동전 던지기)에 의해 달성되며, 평균 제곱 오차는 a=n-1+\tfrac{2}{n}.에 대해 최소화된다. 따라서 첨도에 관계없이, 불편 추정량을 약간 축소함으로써 "더 나은" 추정(더 낮은 평균 제곱 오차를 갖는다는 의미에서)을 얻게 된다. 이것은 수축 추정량의 간단한 예이다. 즉, 추정량을 0으로 "수축"한다(불편 추정량을 축소한다).

또한, 수정된 표본 분산은 정규 분포의 분산에 대한 최적 불편 추정량 (불편 추정량 중 최소 평균 제곱 오차)이지만, 분포가 정규 분포가 아닌 경우, 불편 추정량 중에서도 분산의 최적 불편 추정량이 S^2_{n-1}.이 아닐 수 있다.

4. 3. 정규 분포

정규 분포에서 평균 및 분산 추정량의 평균 제곱 오차(MSE)는 다음과 같다.[9]

실제 값추정치평균 제곱 오차
\theta=\mu\hat{\theta} = 모집단 평균의 불편 추정량, \overline{X}=\frac{1}{n}\sum_{i=1}^n(X_i)\operatorname{MSE}(\overline{X})=\operatorname{E}((\overline{X}-\mu)^2)=\left(\frac{\sigma}{\sqrt{n}}\right)^2
\theta=\sigma^2\hat{\theta} = 모집단 분산의 불편 추정량, S^2_{n-1} = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\operatorname{MSE}(S^2_{n-1})=\operatorname{E}((S^2_{n-1}-\sigma^2)^2)=\frac{2}{n - 1}\sigma^4
\theta=\sigma^2\hat{\theta} = 모집단 분산의 편향 추정량, S^2_{n} = \frac{1}{n}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\operatorname{MSE}(S^2_{n})=\operatorname{E}((S^2_{n}-\sigma^2)^2)=\frac{2n - 1}{n^2}\sigma^4
\theta=\sigma^2\hat{\theta} = 모집단 분산의 편향 추정량, S^2_{n+1} = \frac{1}{n+1}\sum_{i=1}^n\left(X_i-\overline{X}\,\right)^2\operatorname{MSE}(S^2_{n+1})=\operatorname{E}((S^2_{n+1}-\sigma^2)^2)=\frac{2}{n + 1}\sigma^4


5. 해석

MSE가 0이라는 것은 추정량/예측 변수가 완벽하게 정확하다는 것을 의미하지만, 이는 이상적인 경우이며 일반적으로 불가능하다.[13] MSE는 여러 통계 모형을 비교하는 데 사용될 수 있다. 모든 비편향 추정량 중에서 가장 작은 분산을 가진 비편향 추정량은 ''최적 비편향 추정량'' 또는 최소 분산 비편향 추정량(MVUE)이다.

분산 분석선형 회귀에서 MSE는 요인 또는 예측 변수의 통계적 유의성을 결정하는 데 사용된다. 실험 설계의 목표는 관측값을 분석할 때 MSE가 적어도 하나의 추정된 처리 효과의 크기에 비해 0에 가깝도록 실험을 구성하는 것이다.

일원 분산 분석에서 MSE는 제곱 오차의 합과 자유도를 나누어 계산한다. 또한, f-값은 평균 제곱 처리와 MSE의 비율이다.

MSE는 또한 단계별 회귀에서 후보 집합에서 모형에 포함할 예측 변수를 결정하는 데 사용된다.[13]

6. 응용


  • 최소 평균 제곱 오차(MMSE)는 추정기를 선택하는 핵심 기준이다.
  • 통계 모델링에서 평균 제곱 오차(MSE)는 실제 관측값과 모델 예측값의 차이를 나타낼 수 있다.
  • 예측에서 브라이어 점수(Brier score)는 MSE를 기반으로 한 예측 기술의 척도이다.

7. 손실 함수

제곱 오차 손실은 통계학에서 가장 널리 사용되는 손실 함수 중 하나로, 카를 프리드리히 가우스가 도입했다.[3] 이는 선형 회귀의 성능을 분석하는 데 유용하며, 데이터 세트의 변동을 모델 설명 부분과 무작위성 부분으로 나눌 수 있게 해준다.

MSE는 제곱 오차의 기대값에 해당하는 위험 함수이다.[13] MSE는 무작위성이나 제외 변수 편향 때문에 거의 항상 양수이다.[14] 기계 학습, 특히 empirical risk minimization|경험적 위험 최소화영어에서 MSE는 실제 MSE(모집단의 실제 평균 손실)의 추정량으로서 "경험적" 손실(관측된 데이터의 평균 손실)을 의미한다.

MSE는 추정량의 품질을 측정하는 척도로, 유클리드 거리의 제곱에서 파생되어 항상 양수이며 오차가 감소함에 따라 0에 가까워진다.

7. 1. 비판

제곱 오차 손실은 통계학에서 가장 널리 사용되는 손실 함수 중 하나이지만, 실제 응용 분야에서의 손실보다는 수학적 편의성 때문에 널리 사용된다. 카를 프리드리히 가우스는 평균 제곱 오차(MSE)의 사용을 도입했지만, 그 임의성을 인지하고 있었고 제기된 반대에 동의했다.[3]

결정 이론 학자 제임스 버거는 평균 제곱 오차의 무분별한 사용에 대해 비판했다. 평균 제곱 오차는 특정한 효용 함수인 2차 효용 함수의 기대값의 음수인데, 이는 특정 상황에서 사용하기에 적절한 효용 함수가 아닐 수 있다.[10]

분산과 마찬가지로, 평균 제곱 오차는 이상치에 높은 가중치를 부여하는 단점이 있다.[11] 이는 각 항을 제곱하기 때문에 나타나는 결과로, 큰 오차에 작은 오차보다 더 큰 가중치를 부여하게 된다. 이러한 속성은 많은 응용 분야에서 바람직하지 않으며, 연구자들은 평균 절대 오차중앙값을 기반으로 하는 대안을 사용하게 되었다.

8. 해설(일본어 문서 내용)

MSE는 제곱 오차의 기대값에 해당하는 위험 함수이다.[13] MSE가 거의 항상 양수(0이 아님)인 이유는 무작위성 때문이거나, 제외 변수 편향이 있기 때문이다.[14] 기계 학습, 특히 empirical risk minimization|경험적 위험 최소화영어에서는, MSE는 실제 MSE(모집단의 실제 평균 손실)의 추정량으로서의 "경험적" 손실(관측된 데이터의 평균 손실)을 나타낸다.

MSE는 추정량의 질을 측정하는 척도이다. 유클리드 거리의 제곱에서 파생되었으므로 항상 양수이며, 오차가 감소함에 따라 0에 가까워진다.

참조

[1] 웹사이트 Mean Squared Error (MSE) https://www.probabil[...] 2020-09-12
[2] 서적 Mathematical Statistics: Basic Ideas and Selected Topics
[3] 서적 Theory of Point Estimation Springer
[4] 서적 An Introduction to Statistical Learning: with Applications in R https://www.statlear[...] Springer 2021
[5] 서적 Mathematical Statistics with Applications Thomson Higher Education
[6] 서적 A modern introduction to probability and statistics : understanding why and how Springer 2005
[7] 서적 Principles and Procedures of Statistics with Special Reference to the Biological Sciences. McGraw Hill
[8] 서적 Introduction to the Theory of Statistics https://archive.org/[...] McGraw-Hill
[9] 서적 Probability and Statistics Addison-Wesley
[10] 서적 Statistical Decision Theory and Bayesian Analysis https://archive.org/[...] Springer-Verlag
[11] 간행물 Oriented principal component analysis for large margin classifiers
[12] 웹사이트 Mean Squared Error (MSE) https://www.probabil[...] 2020-09-12
[13] 서적 Mathematical Statistics: Basic Ideas and Selected Topics
[14] 서적 Theory of Point Estimation Springer



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com