맨위로가기

비대칭도

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

비대칭도는 확률 변수의 분포가 평균을 중심으로 얼마나 비대칭적인지를 나타내는 척도이다. 3차 표준 모멘트로 정의되며, 양의 왜도는 분포의 오른쪽 꼬리가 길고, 음의 왜도는 왼쪽 꼬리가 긴 형태를 보인다. 비대칭도는 평균, 중앙값, 최빈값 간의 관계를 통해 분포의 형태를 파악하는 데 도움을 주며, 여러 가지 측정 방법이 존재한다. 표본 왜도는 모집단 왜도의 편의 추정량이며, 데이터 분석 및 통계적 추론에 활용된다.

2. 정의

확률변수 ''X''의 왜도(skewness) 또는 비대칭도는 분포의 비대칭성을 나타내는 척도로, 3차 표준화 적률 \tilde{\mu}_3로 정의된다.[5][4] 칼 피어슨이 사용한 기호 ''γ''1로 표시하기도 한다.[33] 수학적 정의는 다음과 같다.

:

\gamma_1 = \tilde{\mu}_3 = \operatorname{E}\left[\left(\frac{X-\mu}{\sigma}\right)^3 \right]

= \frac{\mu_3}{\sigma^3}

= \frac{\operatorname{E}\left[(X-\mu)^3\right]}{( \operatorname{E}\left[ (X-\mu)^2 \right] )^{3/2}}



여기서 ''μ''는 평균, ''σ''는 표준 편차, E는 기댓값 연산자, ''μ''3는 3차 중심적률이다. 왜도는 Skew[''X'']로 표기되기도 한다.

이 값은 '''피어슨의 적률 비대칭도 계수'''[4] 또는 간단히 '''적률 비대칭도 계수'''[5]라고도 불리며, 피어슨의 다른 비대칭도 통계량과는 구별해야 한다.

왜도는 큐뮬런트(cumulant)를 이용하여 표현할 수도 있다. 세 번째 큐뮬런트 ''κ''3와 두 번째 큐뮬런트 ''κ''2의 비율로 나타내면 다음과 같다.

:

\gamma_1 = \frac{\kappa_3}{\kappa_2^{3/2}}



이는 첨도가 네 번째 큐뮬런트와 두 번째 큐뮬런트 제곱의 비율로 정의되는 것과 유사한 형태이다.

왜도는 특정 분포에서 무한대가 될 수도 있다. 예를 들어, 확률밀도함수가 다음과 같은 경우 3차 큐뮬런트가 무한대가 되어 왜도도 무한대가 된다.

:\Pr \left[ X > x \right]=x^{-2}\mbox{ for }x>1,\ \Pr[X<1]=0

또는 다음과 같은 경우 3차 큐뮬런트가 정의되지 않아 왜도도 정의되지 않을 수 있다.

:\Pr[Xx]=(1+x)^{-3}/2\mbox{ for positive }x.

유한한 왜도를 갖는 분포의 예시는 다음과 같다.


  • 정규 분포 및 유한한 3차 모멘트를 갖는 다른 대칭 분포는 왜도가 0이다.
  • 반정규 분포는 왜도가 1보다 약간 작다.
  • 지수 분포는 왜도가 2이다.
  • 로그 정규 분포는 매개변수에 따라 임의의 양수 값을 왜도로 가질 수 있다.

2. 1. 표준화

확률 분포의 특성을 나타내기 위해 일반적으로 기댓값 및 분산이 사용된다. 더 나아가 분포 형태의 차이를 나타내는 지표로는 3차 모멘트(3제곱의 기댓값)와 4차 모멘트(4제곱의 기댓값) 등이 있다. 이러한 고차 모멘트는 보통 평균과 분산의 영향을 제거하기 위해 표준화 과정을 거쳐 사용된다.

확률 변수 ''X''의 기댓값이 ''μ'', 표준편차가 ''σ''일 때, 표준화 확률 변수 Z = \frac{X - \mu}{\sigma}는 기댓값이 0이고 분산이 1이 된다. 이렇게 표준화된 확률 변수 ''Z''를 사용하면 평균이나 분산의 크기에 상관없이 분포의 형태 자체를 비교할 수 있다.

''Z''의 3차 모멘트 \operatorname{E}[Z^3]비대칭도(skewness) 또는 왜도라고 불리며, 분포가 얼마나 대칭적인지를 나타내는 척도이다.[33] 칼 피어슨은 이를 ''γ''1로 표기했다.

:

\gamma_1 = \operatorname{E}[Z^3] = \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big]

= \frac{\mu_3}{\sigma^3}

= \frac{\mu_3}{\mu_2^{3/2}}\,



여기서 ''μ''''i''는 ''i''번째 중심적률을 의미한다. 로널드 피셔\sqrt{\beta_1}라는 표기를 사용하기도 했으나, 왜도는 음수 값을 가질 수 있어 이 표기는 한계가 있었다. 왜도를 계산하는 식을 풀어 쓰면 다음과 같다.

:

\gamma_1

= \operatorname{E}\bigg[\Big(\frac{X-\mu}{\sigma}\Big)^{\!3} \,\bigg]

= \frac{\operatorname{E}[X^3] - 3\mu\operatorname E[X^2] +3 \mu^2\operatorname E[X] - \mu^3}{\sigma^3}

= \frac{\operatorname{E}[X^3] - 3\mu\sigma^2 - \mu^3}{\sigma^3}\ .



왜도의 부호는 분포의 비대칭 방향을 나타낸다. 왜도가 0이면 분포가 평균을 중심으로 좌우 대칭임을 의미하며, 대표적으로 정규 분포는 왜도가 0이다. 왜도가 양수이면 오른쪽 꼬리가 긴 분포(오른쪽으로 치우친 분포)이고, 음수이면 왼쪽 꼬리가 긴 분포(왼쪽으로 치우친 분포)를 의미한다.

''Z''의 4차 모멘트 \operatorname{E}[Z^4]첨도(kurtosis)와 관련 있으며, 분포의 뾰족한 정도와 꼬리 부분의 두께를 나타낸다. 피어슨의 첨도 ''β''2는 다음과 같이 정의된다.

: \beta_2 = \operatorname{E}[Z^4] = \frac{\mu_4}{\sigma^4}

정규 분포의 경우 ''β''2 값은 3이다. 따라서 정규 분포를 기준으로 상대적인 첨도를 나타내기 위해 초과 첨도(excess kurtosis) ''γ''2를 사용하며, 다음과 같이 정의된다.

: \gamma_2 = \beta_2 - 3 = \operatorname{E}[Z^4] - 3

초과 첨도 ''γ''2가 0보다 큰 분포(\beta_2 > 3)는 정규 분포보다 더 뾰족하고 꼬리가 두꺼운 '''급첨 분포'''(leptokurtic)이다. 반대로 ''γ''2가 0보다 작은 분포(\beta_2 < 3)는 정규 분포보다 더 완만하고 꼬리가 얇은 '''완첨 분포'''(platykurtic)이다. 정규 분포와 같은 첨도를 가지는 분포(\gamma_2 = 0, \beta_2 = 3)는 중첨 분포(mesokurtic)라고 한다.

예를 들어, 로그 정규 분포를 따르는 확률 변수는 항상 양의 왜도(''γ''1 > 0)를 가지며, 피어슨 첨도 ''β''2는 항상 3보다 크다(즉, 초과 첨도 ''γ''2는 항상 0보다 크다).

2. 2. 양의 왜도와 음의 왜도

다음 그림에 있는 두 분포를 생각해 보자. 각 그래프 내에서 분포의 오른쪽 값은 왼쪽 값과 다르게 가늘어진다. 이렇게 가늘어지는 부분을 꼬리(tail)라고 하며, 분포가 어떤 종류의 왜도를 갖는지 시각적으로 판단하는 데 도움을 준다.

  • 음의 왜도 (Negative Skewness): 왼쪽 꼬리가 오른쪽 꼬리보다 더 길게 늘어져 있으며, 데이터 값들의 분포는 주로 오른쪽에 집중되어 있다. 이런 분포는 좌편향, 왼쪽 꼬리, 또는 왼쪽으로 치우쳤다고 표현한다. '왼쪽'이라는 표현은 왼쪽 꼬리가 길다는 점과, 종종 평균값이 데이터의 중심 값보다 왼쪽에 위치하게 된다는 점을 의미한다. 좌편향 분포는 시각적으로 곡선의 정점이 오른쪽으로 치우쳐 보이는 경향이 있다.[1]
  • 양의 왜도 (Positive Skewness): 오른쪽 꼬리가 왼쪽 꼬리보다 더 길게 늘어져 있으며, 데이터 값들의 분포는 주로 왼쪽에 집중되어 있다. 이런 분포는 우편향, 오른쪽 꼬리, 또는 오른쪽으로 치우쳤다고 표현한다. '오른쪽'이라는 표현은 오른쪽 꼬리가 길다는 점과, 종종 평균값이 데이터의 중심 값보다 오른쪽에 위치하게 된다는 점을 의미한다. 우편향 분포는 시각적으로 곡선의 정점이 왼쪽으로 치우쳐 보이는 경향이 있다.[1]


데이터 값들을 직접 살펴보는 것만으로도 왜도를 파악할 수 있다. 예를 들어, 중심 값 50을 기준으로 값들이 대칭적으로 분포된 숫자 시퀀스 (49, 50, 51)를 생각해 보자. 여기에 평균보다 훨씬 낮은 값, 예를 들어 이상치(outlier)일 수 있는 40을 추가하면 (40, 49, 50, 51)이 된다. 이 시퀀스의 평균은 47.5이고 중앙값은 49.5가 되어 평균이 중앙값보다 작아지며, 이는 음의 왜도를 나타낸다. 비모수적 왜도 공식인 (평균 - 중앙값) / 표준편차에 따르면 왜도 값은 음수가 된다. 반대로, 평균보다 훨씬 높은 값, 예를 들어 60을 추가하여 (49, 50, 51, 60)을 만들면, 평균은 52.5이고 중앙값은 50.5가 되어 평균이 중앙값보다 커지며 양의 왜도를 나타낸다.

주의할 점은, 하나의 봉우리(최빈값)를 가진 단봉 분포(unimodal distribution)에서 왜도 값이 0이라고 해서 반드시 그 분포가 대칭 분포(symmetric distribution)인 것은 아니다. 하지만 대칭적인 단봉 분포나 여러 개의 봉우리를 가진 다봉 분포(multimodal distribution)는 항상 왜도 값이 0이다.

왜도 값이 0이지만 비대칭인 분포의 예. 왜도가 0이라고 해서 반드시 대칭 분포는 아님을 보여준다. (피어슨의 왜도 모멘트 계수 기준)

3. 표본 왜도

크기가 ''n''인 표본의 왜도는

:g_1 = \frac{m_{3}}{m_{2} ^{3/2}} = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{\left(\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2\right)^{3/2}}

로 정의한다. 여기서 ''mi''는 i차 표본중심적률을 의미하며 \bar{x}표본 평균을 의미한다.

모집단에서 표본을 추출하였을 때 표본왜도는 모집단의 왜도의 편의 추정량이다. 이산확률변수에서는 표본왜도가 정의되지 않을 수도 있다.

표본 크기 ''n''개의 값에 대한 모집단 왜도의 자연적인 추정량 두 가지는 다음과 같다.[6]

:

b_1 = \frac{m_3}{s^3}

= \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^3}{\left[\tfrac{1}{n-1} \sum_{i=1}^n (x_i-\overline{x})^2 \right]^{3/2}}



그리고

:

g_1 = \frac{m_3}{m_2^{3/2}}

= \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^3}{\left[\tfrac{1}{n} \sum_{i=1}^n (x_i-\overline{x})^2 \right]^{3/2}},



여기서 \overline{x}표본 평균, ''s''는 표본 표준 편차, ''m''2는 (편향된) 표본의 두 번째 중심 모멘트, ''m''3는 (편향된) 표본의 세 번째 중심 모멘트이다.[6] g_1은 적률법 추정량이다.

''표본 왜도''의 또 다른 일반적인 정의는 다음과 같다.[6][7]

:

\begin{align}

G_1 & = \frac{k_3}{k_2^{3/2}} = \frac{n^2}{(n-1)(n-2)}\; b_1 = \frac{\sqrt{n(n-1)}}{n-2}\; g_1, \\

\end{align}



여기서 k_3는 세 번째 큐뮬런트의 고유한 대칭적 불편 추정량이고, k_2 = s^2는 두 번째 큐뮬런트(즉, 표본 분산)의 대칭적 불편 추정량이다. 이 조정된 피셔-피어슨 표준화 모멘트 계수 G_1 은 Excel과 Minitab, SASSPSS를 포함한 여러 통계 패키지에서 사용되는 버전이다.[7]

기저 확률 변수 X가 정규 분포를 따른다고 가정하면, 세 비율 b_1, g_1G_1은 모두 모집단 왜도 \gamma_1=0의 불편하고 일치하는 추정량이며, \sqrt{n} b_1 \mathrel{\xrightarrow{d}} N(0, 6)로 나타낼 수 있다. 즉, 분포가 평균 0 및 분산 6인 정규 분포로 수렴한다 (피셔, 1930).[6] 따라서 표본 왜도의 분산은 충분히 큰 표본에 대해 약 6/n이다. 보다 정확하게는, 정규 분포에서 크기 ''n''인 임의 표본에서[8][9]

: \operatorname{var}(G_1)= \frac{6n ( n - 1 )}{ ( n - 2 )( n + 1 )( n + 3 ) } .

정규 표본에서 b_1은 세 추정량 중 더 작은 분산을 가지며, 그 관계는 다음과 같다.

: \operatorname{var}(b_1) < \operatorname{var} (g_1) < \operatorname{var}(G_1).

비정규 분포의 경우 b_1, g_1G_1은 일반적으로 모집단 왜도 \gamma_1의 편향된 추정량이다. 기대값이 실제 왜도와 반대 부호를 가질 수도 있다. 예를 들어, -99, 0.5 및 2를 중심으로 가중치가 0.01, 0.66 및 0.33인 매우 얇은 가우시안으로 구성된 혼합 분포는 약 -9.77의 왜도 \gamma_1을 갖지만, 크기 3의 표본에서 G_1은 약 0.32의 기대값을 갖는데, 이는 일반적으로 세 표본 모두가 분포의 양수 값 부분에 있기 때문이며, 이 부분은 반대 방향으로 왜곡된다.

일반적으로 평균 주위의 ''k''차 모멘트 E ((X - \mu)^{k})는 ''k''차의 표본 모멘트에 의해 추정할 수 있다. 따라서 왜도와 첨도는 원 계열을 표준화하면 3차 표본 모멘트 b_1^{1/2} 및 4차 표본 모멘트 b_2로 추정할 수 있다. 모분포가 정규 분포인지 여부를 조사하려면 왜도와 첨도가 표준화된 정규 확률 변수의 값 0과 3과 비슷한지 여부를 조사하면 된다(자크-베라 검정). 보우만-션턴[31]은 정규성 검정의 지표[32]

:JB = n\frac{b_1^2}{6} + n\frac{(b_2 - 3)^2}{24}

가, 귀무 가설이 정규 분포인 하에서 자유도가 2인 카이제곱 분포에 점근적으로 따른다는 것을 보였다.

4. 평균, 중앙값, 최빈값의 관계

왼쪽: 음의 왜도 (좌편향), 오른쪽: 양의 왜도 (우편향). 음의 왜도에서는 평균 < 중앙값 < 최빈값, 양의 왜도에서는 평균 > 중앙값 > 최빈값의 경향을 보인다.


다양한 왜도를 가진 단봉 분포에서 평균과 중앙값의 일반적인 관계


미국 가구의 성인 거주자 분포. 양의 왜도를 가지지만 평균이 중앙값보다 작아 경험적 규칙이 실패하는 예시이다.


분포의 왜도, 즉 비대칭성은 평균, 중앙값, 최빈값 사이의 관계를 통해 짐작할 수 있다.

만약 분포가 대칭 분포라면 평균중앙값과 같으며, 왜도는 0이 된다.[3] 만약 분포가 대칭이면서 단봉 분포라면, 평균, 중앙값, 최빈값은 모두 일치한다. (평균 = 중앙값 = 최빈값)

그러나 분포가 대칭이 아닐 경우, 평균, 중앙값, 최빈값은 서로 다른 값을 가질 수 있다. 다음과 같은 경험적인 관계가 알려져 있다.

  • 음의 왜도 (Negative skew, 좌편향): 분포의 왼쪽 꼬리가 오른쪽 꼬리보다 길다. 데이터가 오른쪽에 더 많이 분포하며, 왼쪽으로 길게 늘어진 형태를 보인다. 이 경우, 평균 < 중앙값 < 최빈값의 관계를 보이는 경향이 있다.[1] 데이터에 평균보다 매우 작은 값이 포함되면 평균이 왼쪽으로 치우쳐 음의 왜도를 나타낼 수 있다. 예를 들어, (49, 50, 51) 데이터에 40을 추가하면 (40, 49, 50, 51)이 되고, 평균은 47.5, 중앙값은 49.5가 되어 평균이 중앙값보다 작아진다.
  • 양의 왜도 (Positive skew, 우편향): 분포의 오른쪽 꼬리가 왼쪽 꼬리보다 길다. 데이터가 왼쪽에 더 많이 분포하며, 오른쪽으로 길게 늘어진 형태를 보인다. 이 경우, 평균 > 중앙값 > 최빈값의 관계를 보이는 경향이 있다.[1] 데이터에 평균보다 매우 큰 값이 포함되면 평균이 오른쪽으로 치우쳐 양의 왜도를 나타낼 수 있다. 예를 들어, (49, 50, 51) 데이터에 60을 추가하면 (49, 50, 51, 60)이 되고, 평균은 52.5, 중앙값은 50.5가 되어 평균이 중앙값보다 커진다.


칼 피어슨은 평균과 중앙값, 또는 평균과 최빈값의 차이를 이용한 피어슨의 비대칭 계수를 제안했다.[34][35]

  • 피어슨의 첫 번째 비대칭 계수 = (평균 − 최빈값) / 표준 편차
  • 피어슨의 두 번째 비대칭 계수 = 3 * (평균 − 중앙값) / 표준 편차


특히 두 번째 계수(Cs) 값이 0보다 크면 양의 왜도(오른쪽 긴 꼬리, 정적편포), 0보다 작으면 음의 왜도(왼쪽 긴 꼬리, 부적편포) 경향을 나타낸다. 평균, 중앙값, 최빈값이 일치하면 Cs=0으로 정규 분포를 이룬다.
경험적 규칙의 한계위에서 설명한 '양의 왜도면 평균 > 중앙값, 음의 왜도면 평균 < 중앙값'이라는 관계는 일반적인 경향일 뿐 항상 성립하는 것은 아니다.[2] 이 경험적 규칙은 다음과 같은 경우 실패할 수 있다.[2]

  • 다봉 분포 (봉우리가 여러 개인 분포)
  • 한쪽 꼬리는 길지만 다른 쪽 꼬리는 헤비 테일(heavy tail, 두꺼운 꼬리)인 분포
  • 중앙값을 기준으로 왼쪽과 오른쪽 영역의 데이터 분포 방식이 매우 다른 이산 분포


실제 예로 미국 가구의 성인 거주자 수 분포는 양의 왜도(오른쪽으로 긴 꼬리)를 가지지만, 대부분의 가구가 1명 또는 2명(최빈값, 중앙값 근처)에 집중되어 있고 소수의 다인 가구가 평균을 오른쪽으로 충분히 끌어당기지 못하여, 오히려 평균이 중앙값보다 작은 경우가 발생한다. 이 경우 경험적 규칙은 실패한다.[2]
비모수적 왜도와의 관계과거에는 왜도를 (\mu - \nu)/\sigma (여기서 \mu평균, \nu중앙값, \sigma표준 편차)로 정의하는 비모수적 왜도(non-parametric skew) 개념을 사용하기도 했다. 이 정의에 따르면 왜도의 부호는 평균과 중앙값의 상대적 위치(\mu - \nu)에 따라 직접 결정된다. 즉, 평균 > 중앙값이면 양의 왜도, 평균 < 중앙값이면 음의 왜도가 된다.

하지만 이 전통적인 비모수적 왜도 정의는 현대 통계학에서 일반적으로 사용되는 왜도(3차 적률 기반) 정의와 항상 부호가 일치하지는 않는다. 어떤 분포에서는 부호가 같지만 다른 분포에서는 다를 수 있으므로, 두 개념을 혼동해서는 안 된다.[2]
주의사항분포의 왜도 값이 0이라고 해서 반드시 그 분포가 대칭인 것은 아니다. 비대칭적이면서도 우연히 왜도 계산 값이 0이 되는 분포가 존재할 수 있다. (오른쪽 그림 참조) 그러나 대칭 분포는 항상 왜도 값이 0이다.

5. 피어슨의 비대칭 계수

'''피어슨의 비대칭 계수'''(Pearson's skewness coefficients)는 칼 피어슨이 비대칭도 측정을 위해 제안한 간단한 계산법이다.[34] 이 값은 분포가 좌우로 얼마나 대칭적인지를 나타내는 통계값으로 사용된다.[35]

피어슨의 비대칭 계수에는 두 가지 종류가 있다.



두 번째 비대칭 계수(Cs) 값에 따라 분포의 형태를 다음과 같이 해석할 수 있다.

  • Cs = 0: 평균, 중앙값, 최빈값이 일치하며 정규분포와 같이 좌우 대칭인 분포를 이룬다.
  • Cs > 0: 분포가 왼쪽으로 치우치고 오른쪽으로 긴 꼬리를 가진다. 이를 정적편포(positive skew)라고 한다.
  • Cs < 0: 분포가 오른쪽으로 치우치고 왼쪽으로 긴 꼬리를 가진다. 이를 부적편포(negative skew)라고 한다.


피어슨의 두 번째 비대칭 계수는 비모수적 왜도의 간단한 배수 형태이다.

6. 기타 왜도 측정 방법



기타 왜도 측정 방법이 사용되었으며, 여기에는 칼 피어슨이 제안한 더 간단한 계산도 포함된다[10]. (위의 피어슨의 모멘트 왜도 계수와 혼동하지 말 것). 이러한 다른 측정 방법은 다음과 같다.


  • Bowley의 왜도 척도 (Yule의 계수): 1901년 Bowley가 제안하고[14][15] 1912년 Yule이 언급하여[16][17] '''Yule의 계수'''라고도 불리는 이 척도는 다음과 같이 정의된다.

:\frac{\frac{2}-{\frac{2}} =\frac,

여기서 ''Q''는 분위 함수 (즉, 누적 분포 함수의 역함수)이다. 분자는 상위 및 하위 사분위수의 평균(위치 척도)과 중앙값(또 다른 위치 척도)의 차이이며, 분모는 반사분위 범위 ({Q}(3/4)}-{{Q}(1/4))/2이다. 이는 대칭 분포의 경우 평균 절대 편차 분산 척도와 같다. 이 척도의 다른 이름으로는 Galton의 왜도 척도,[18] Yule-Kendall 지수[19] 및 사분위수 왜도[20]가 있다.

  • Kelly의 왜도 척도: 다음과 같이 정의된다.[21]

:\frac.

  • Groeneveld와 Meeden의 일반화된 분위수 척도: 1984년 Groeneveld와 Meeden은 더 일반적인 왜도 함수 공식을 제시했다.[22][23][24]

: \gamma( u )= \frac{ Q( u ) +Q( 1 - u )-2Q( 1 / 2 ) }{Q( u ) -Q( 1 - u ) }

함수 ''γ''(''u'')는 −1 ≤ ''γ''(''u'') ≤ 1을 만족하며 분포의 모멘트의 존재를 요구하지 않고도 잘 정의된다.[22] Bowley의 왜도 척도는 ''u'' = 3/4에서 평가된 γ(''u'')이고 Kelly의 왜도 척도는 ''u'' = 9/10에서 평가된 γ(''u'')이다. 이 정의는 1/2 ≤ ''u'' < 1 범위에서 이에 대한 상한으로 정의되는 해당 전반적인 왜도 척도로 이어집니다.[25] 분위수 기반 왜도 척도는 언뜻 보기에 해석하기 쉽지만 모멘트 기반 방법에 비해 샘플 변동이 상당히 큰 경우가 많다. 이는 종종 균등 분포와 같은 대칭 분포의 샘플이 우연히 큰 분위수 기반 왜도를 갖는다는 것을 의미한다.

  • Groeneveld와 Meeden의 평균-중앙값 기반 계수: Groeneveld와 Meeden은 비대칭도의 대체 척도로 다음과 같은 것을 제안했다.[22]

: \operatorname{skew}(X) = \frac{( \mu - \nu ) }{ \operatorname E( | X - \nu | ) },

여기서 ''μ''는 평균, ''ν''는 중앙값, |...|는 절댓값, E()는 기댓값 연산자이다. 이것은 Pearson의 두 번째 비대칭도 계수와 형태가 밀접하게 관련되어 있다.

  • L-모멘트: 일반적인 모멘트 대신 L-모멘트를 사용하면 L-왜도라고 알려진 왜도 척도를 제공한다.

  • 거리 왜도 (dSkew): 비대칭도 값이 0이라고 해서 확률 분포가 대칭적이라는 것을 의미하지는 않는다. 따라서 이러한 속성을 가진 비대칭성에 대한 다른 척도가 필요하며, 그러한 척도는 2000년에 도입되었다.[27] 이 척도는 '''거리 비대칭도'''라고 불리며 dSkew로 표시된다. 만약 ''X''가 ''d''차원 유클리드 공간에서 값을 갖는 확률 변수이고, ''X''의 기댓값이 유한하며, ''X''<0xE2><0x80><0xB2>는 ''X''의 독립적이고 동일하게 분포된 복사본이며, \|\cdot\|는 유클리드 공간에서의 노름을 나타낸다면, 위치 매개변수 θ에 대한 간단한 ''비대칭도 척도''는 다음과 같다.

: \operatorname{dSkew}(X) := 1 - \frac{\operatorname{E}\|X-X'\|}{\operatorname{E}\|X+X'-2 \theta\|} \text{ if } \Pr(X=\theta)\ne 1

그리고 dSkew(''X'') := 0 for ''X'' = θ (확률 1). 거리 비대칭도는 항상 0과 1 사이의 값을 가지며, ''X''가 θ에 대해 대각선 대칭일 때(''X''와 2θ−''X''가 동일한 확률 분포를 가짐)에만 0이 되고, X가 확률 1로 상수 ''c''(c \neq \theta)일 때 1이 된다.[28] 따라서 '''표본 거리 비대칭도'''를 기반으로 하는 간단하고 일관된 통계적 검정이 있다.

: \operatorname{dSkew}_n(X):= 1 - \frac{\sum_{i,j} \|x_i-x_j\| }{\sum_{i,j} \|x_i+x_j-2\theta \|}.

  • 메드커플 (Medcouple): 메드커플은 척도 불변성을 가지는 왜도의 강건한 척도이며, 파괴점은 25%이다.[29] 이는 다음 커널 함수의 값들의 중앙값이다.

: h(x_i, x_j) = \frac{ (x_i - x_m) - (x_m - x_j)}{x_i - x_j}

여기서 (x_i, x_j)x_i \geq x_m \geq x_j를 만족하는 모든 쌍이며, x_m은 표본 \{x_1, x_2, \ldots, x_n\}의 중앙값이다. 이는 가능한 모든 분위수 왜도 척도의 중앙값으로 볼 수 있다.

7. 응용

왜도는 히스토그램 및 정규 분위수 그림과 함께 데이터 또는 분포의 특성을 파악하는 데 사용될 수 있는 기술 통계량이다.

왜도는 분포가 정규 분포로부터 어느 방향으로 얼마나 벗어났는지, 즉 편차의 방향과 상대적인 크기를 나타낸다.

분포의 왜도가 뚜렷하게 나타날 경우, 평균에 대한 신뢰 구간과 같은 표준적인 통계적 추론 절차는 몇 가지 문제점을 가질 수 있다. 예를 들어, 명목상의 신뢰 수준(예: 95%)과 실제 적용했을 때의 신뢰 수준이 달라질 수 있으며, 평균을 기준으로 양쪽 구간에서의 오류 확률이 동일하지 않게 될 수 있다.

왜도는 Cornish–Fisher 전개를 통해 분포의 확률이나 분위수를 근사적으로 계산하는 데 활용될 수 있다. 예를 들어, 금융 분야에서는 이를 위험 가치(Value at Risk, VaR)를 추정하는 데 사용할 수 있다.

많은 통계 모델은 데이터가 정규 분포를 따른다고 가정하는데, 이는 데이터가 평균을 중심으로 대칭이라는 의미이다. 정규 분포의 왜도는 0이다. 그러나 실제 데이터는 완벽하게 대칭적이지 않은 경우가 많다. 따라서 데이터 집합의 왜도를 이해하면, 평균으로부터의 편차가 주로 양수 방향으로 나타나는지 또는 음수 방향으로 나타나는지를 파악하는 데 도움이 된다.

D'Agostino의 K-제곱 검정은 표본 데이터에서 계산된 왜도와 첨도를 이용하여 해당 데이터가 정규 분포를 따르는지를 검증하는 적합도 정규성 검정 방법 중 하나이다.

8. 추정

일반적으로 평균을 중심으로 한 ''k''차 모멘트 E ((X - \mu)^{k})는 ''k''차 표본 모멘트를 이용하여 추정할 수 있다. 따라서 왜도(비대칭도)와 첨도는 원래 데이터를 표준화한 뒤, 각각 3차 표본 모멘트 b_1^{1/2}와 4차 표본 모멘트 b_2를 통해 추정할 수 있다.

데이터의 분포가 정규 분포인지 확인하기 위해서는 추정된 왜도와 첨도 값이 정규 분포의 이론적인 값인 0과 3에 가까운지를 살펴보면 된다. 이를 위한 통계적 검정 방법 중 하나가 자크-베라 검정이다. 또한, 보우만-션턴[31]은 다음과 같은 정규성 검정 통계량[32]을 제안했다.

:JB = n\frac{b_1^2}{6} + n\frac{(b_2 - 3)^2}{24}

여기서 ''n''은 표본의 크기, b_1^{1/2}은 표본 왜도, b_2는 표본 첨도를 나타낸다. 이 JB 통계량은 데이터가 정규 분포를 따른다는 귀무 가설 하에서, 표본 크기 ''n''이 충분히 클 때 자유도가 2인 카이제곱 분포를 점근적으로 따른다는 것이 알려져 있다.

참조

[1] 웹사이트 2.6 Skewness and the Mean, Median, and Mode – Statistics https://openstax.org[...] 2020-03-27
[2] 논문 Mean, Median, and Skew: Correcting a Textbook Rule http://www.amstat.or[...]
[3] 웹사이트 1.3.5.11. Measures of Skewness and Kurtosis http://www.itl.nist.[...] NIST 2012-03-18
[4] 웹사이트 Pearson's moment coefficient of skewness http://www.fxsolver.[...] FXSolver.com
[5] 웹사이트 Measures of Shape: Skewness and Kurtosis http://brownmath.com[...] Oak Road Systems 2008-2016
[6] 논문 Comparing measures of sample skewness and kurtosis
[7] 간행물 Measuring skewness: a forgotten statistic. http://jse.amstat.or[...]
[8] 서적 Fundamental Statistics for Social Research Routledge
[9] 서적 The Advanced Theory of Statistics, Volume 1: Distribution Theory, 3rd Edition Griffin
[10] 웹사이트 Archived copy http://www.stat.upd.[...] 2010-04-09
[11] MathWorld Pearson Mode Skewness
[12] MathWorld Pearson's skewness coefficients
[13] 논문 Measuring Skewness: A Forgotten Statistic? http://www.amstat.or[...]
[14] 서적 Elements of Statistics P.S. King & Son, Laondon
[15] 서적 Mathematics of Statistics, Pt. 1, 3rd ed. Van Nostrand
[16] 서적 An introduction to the theory of statistics C. Griffin, limited
[17] 논문 An influence function approach to describing the skewness of a distribution
[18] 서적
[19] 서적 Statistical Methods in the Atmospheric Sciences Academic Press
[20] 웹사이트 Skewness http://mathworld.wol[...] 2019-11-21
[21] 웹사이트 Applied Statistics I: Chapter 5: Measures of skewness http://www.math.ruh.[...]
[22] 논문 Measuring Skewness and Kurtosis
[23] 문서 MacGillivray (1992)
[24] 논문 On power transformations to symmetry
[25] 문서 MacGillivray (1992)
[26] 논문 Moments or L moments? An example comparing two measures of distributional shape
[27] 서적 Pre-limit and post-limit theorems for statistics Dekker, New York
[28] 논문 A characteristic measure of asymmetry and its application for testing diagonal symmetry
[29] 논문 A Robust Measure of Skewness 2004-11
[30] 문서 左右対称ならば歪度は 0 である。同様に正規分布ならば尖度は 0(別の定義によれば 3)である。しかし、明らかに歪度が 0 であるからといって左右対称ではないし、尖度が 0(別の定義によれば 3)であるからといって正規分布でもない。
[31] 문서 Bowman, Kimiko O. and Shenton, LR. Biometrika, 1975.
[32] 문서 Jarque-Bera
[33] 매스월드 Skewness
[34] 매스월드 Pearson Mode Skewness
[35] 매스월드 Pearson's Skewness Coefficients



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com