맨위로가기

Z-테스트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

Z-검정은 표본 평균과 모집단 평균 간의 차이를 표준 오차로 나눈 z-점수를 사용하여 통계적 가설을 검정하는 방법이다. 표본 크기가 크거나 모집단 분산이 알려진 경우 정규 분포를 따른다는 중심 극한 정리에 따라, Z-검정을 사용하여 다양한 통계적 검정을 수행할 수 있다. Z-검정은 단일 표본 위치 검정, 두 표본 위치 검정, 최대 우도 추정 등 다양한 상황에 적용되며, Z-검정을 적용하기 위해서는 특정 조건(불필요한 매개변수의 정확한 추정, 검정 통계량의 정규 분포)이 충족되어야 한다.

더 읽어볼만한 페이지

  • 정규 분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
  • 정규 분포 - 카이제곱 분포
    카이제곱 분포는 k개의 독립적인 표준정규분포를 따르는 확률변수들의 제곱의 합으로 정의되는 확률분포로서, 자유도 k에 따라 형태가 결정되며 통계적 가설 검정, 분산 분석, 적합도 검정, 독립성 검정 등 다양한 통계적 추론에 응용된다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
Z-테스트
통계 검정
종류
종류모수적 통계 검정
이름Z 검정
발명
발명가로널드 피셔
발명 시기1920년대 초
사용
분포정규 분포
관련 분포스튜던트 t 분포
활용 분야평균 검정 (모집단 분산을 아는 경우)
비율 검정
최소자승법 회귀분석
검정 통계량
검정 통계량Z
계산식중심 극한 정리를 이용하여 계산
임계값
임계값유의 수준에 따라 결정
관련 항목
관련 항목가설 검정
T-검정
카이제곱 검정
분산 분석

2. Z값

:Z = \frac{\overline{X}-\mu}{SE}

여기서 각 기호는 다음을 의미한다.


  • \overline{X}: 표본평균
  • \mu: 모 평균
  • SE: 표준오차


표준오차(SE)는 다음과 같이 계산한다.

:SE = {\sigma}_\bar{x}\ = \frac{\sigma}{\sqrt{n}}

여기서 각 기호는 다음을 의미한다.

  • σ: 모집단 표준편차(standard deviation)
  • n: 모집단의 크기


Z값을 계산하기 위해서는 다음 값들이 이미 알려져 있다고 가정한다.

  • σ (모집단의 표준 편차)
  • μ (모집단의 평균)
  • \overline{X} (표본의 평균)
  • ''n'' (표본 크기)


Z값 계산 과정은 다음과 같다.

1. 평균의 표준 오차 (SE)를 구한다.

:: SE = \frac{\sigma}{\sqrt n}

2. z-점수(Z값)를 다음 식으로 구한다.

:: z = \frac{\overline{X}-\mu}{SE}

계산된 z-점수를 Z-수표(평균과 z-점수 사이의 정규 분포 곡선 아래 면적 비율을 나타낸 수표)와 비교한다. 이를 통해 계산된 z값이 통계적으로 우연히 발생할 수 있는 범위 내에 있는지, 아니면 모 평균과 유의미하게 차이가 나서 우연으로 보기 어려운지를 판단할 수 있다.

3. Z-검정 절차

Z-검정은 다음 공식을 사용하여 검정 통계량 Z를 계산한다.

:Z=

여기서 각 기호는 다음을 의미한다.


  • \overline{X}: 표본평균
  • \mu: 모 평균
  • SE: 표준오차


표준오차(SE)는 다음과 같이 계산한다.

:SE = {\sigma}_\bar{x}\ = \frac{\sigma}{\sqrt{n}}

  • σ: 모집단의 표준편차
  • n: 모집단의 크기


귀무 가설 하에서 통계량 ''T''가 근사적으로 정규 분포를 따른다고 가정할 때, Z-검정은 다음과 같은 절차로 수행할 수 있다.

1. 기댓값 및 표준편차 추정: 귀무 가설 하에서 통계량 ''T''의 기댓값 μ를 추정하고, ''T''의 표준 편차에 대한 추정치 ''s''를 구한다.

2. 검정 유형 결정: 단측 검정 또는 양측 검정 중 어떤 검정을 수행할지 결정한다.

  • 하단/왼쪽 꼬리 검정 (단측): 귀무 가설 H0: μ ≥ μ0 vs 대립 가설 H1: μ < μ0
  • 상단/오른쪽 꼬리 검정 (단측): 귀무 가설 H0: μ ≤ μ0 vs 대립 가설 H1: μ > μ0
  • 양측 검정: 귀무 가설 H0: μ = μ0 vs 대립 가설 H1: μ ≠ μ0

3. 표준 점수 및 p-값 계산: 표준 점수 Z를 다음 공식으로 계산한다.

:Z=\frac{(\bar{X}-\mu_0)}{s}

계산된 Z값을 이용하여 p-값을 구한다. p-값은 표준 정규 분포누적 분포 함수 Φ를 사용하여 다음과 같이 계산할 수 있다.

  • 하단/왼쪽 꼬리 검정: Φ(''Z'')
  • 상단/오른쪽 꼬리 검정: Φ(−''Z'')
  • 양측 검정: 2Φ(−|''Z''|)

실제 계산 과정 요약Z-검정을 수행하기 위해서는 일반적으로 다음 값들이 알려져 있다고 가정한다.

이 값들을 이용하여 다음 단계로 계산을 진행한다.

1. 평균의 표준 오차 (SE)를 계산한다.

:SE = \frac{\sigma}{\sqrt n}

2. Z-점수를 계산한다.

:z = \frac{\bar{x}-\mu_0}{SE}

3. 계산된 Z-점수를 표준정규분포표와 비교한다. 이 비교를 통해 계산된 Z값이 통계적으로 유의미한 차이를 나타내는지, 즉 관찰된 표본 평균(\bar{x})이 귀무 가설에서 설정한 모평균(μ0)과 우연이라고 보기 어려울 정도로 차이가 나는지를 판단한다.

4. Z-검정의 적용

Z-검정은 통계적 가설 검정 방법 중 하나로, 특정 조건을 만족할 때 사용된다. 기본 검정 통계량 Z는 다음과 같이 계산된다.

:Z = \frac{\overline{X} - \mu}{SE}

여기서 \overline{X}는 표본평균, \mu는 모 평균, SE는 표준오차를 의미한다. 표준오차 SE는 다음과 같이 계산된다.

:SE = \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}

(\sigma는 모집단 표준편차, n은 표본의 크기)

중심 극한 정리에 따르면, 표본의 크기(n)가 충분히 크면 많은 종류의 검정 통계량이 근사적으로 정규 분포를 따른다. 따라서 Z-검정은 주로 다음과 같은 경우에 적용된다.


  • 표본 크기 n이 클 때 (일반적으로 n \ge 30 또는 n \ge 50을 기준으로 삼기도 한다).
  • 모집단의 분산(\sigma^2) 또는 표준편차(\sigma)를 알고 있을 때.


만약 모집단 분산을 모르고 표본 크기가 작다면(n < 30 또는 n < 50 등 기준에 따라 다름), t-검정을 사용하는 것이 더 적절할 수 있다.

Z-검정을 수행하는 절차는 다음과 같다.

# 귀무 가설 하에서 검정 통계량 T기댓값 \mu를 추정하고, T표준 편차에 대한 추정치 s를 구한다.

# 검정의 종류를 결정한다: 단측 검정 또는 양측 검정.

#* 하단/왼쪽 꼬리 (단측) 검정: 귀무 가설 H0: \mu \ge \mu_0 vs 대립 가설 H1: \mu < \mu_0

#* 상단/오른쪽 꼬리 (단측) 검정: 귀무 가설 H0: \mu \le \mu_0 vs 대립 가설 H1: \mu > \mu_0

#* 양측 검정: 귀무 가설 H0: \mu = \mu_0 vs 대립 가설 H1: \mu \ne \mu_0

# 표준 점수 Z를 계산한다. 특정 가설값 \mu_0에 대해 표본 평균 \overline{X}를 사용하여 다음과 같이 계산한다.

#:Z = \frac{(\overline{X} - \mu_0)}{s}

#* 여기서 s\overline{X}의 표준편차, 즉 표준오차(SE = \sigma/\sqrt{n})이다. 모표준편차 \sigma를 아는 경우 이 값을 사용한다.

# 계산된 Z 값을 이용하여 p-값을 구한다. p-값은 표준 정규 분포누적 분포 함수 \Phi를 사용하여 계산할 수 있다.

#* 하단/왼쪽 꼬리 검정: p = \Phi(Z)

#* 상단/오른쪽 꼬리 검정: p = \Phi(-Z) = 1 - \Phi(Z)

#* 양측 검정: p = 2\Phi(-|Z|)
주요 적용 사례: 단일 표본 위치 검정Z-검정은 특히 단일 표본 단일 표본 위치 검정에 자주 사용된다. 이는 수집된 표본 데이터(X_1, ..., X_n)의 평균이 특정 값(\mu_0)과 같은지 다른지를 검정하는 방법이다. 이 데이터는 다음 조건을 만족한다고 가정한다.

  • 각 데이터는 서로 독립적이다.
  • 모든 데이터는 동일한 모 평균 \mu를 갖는다.
  • 모든 데이터는 동일한 모분산 \sigma^2를 갖는다.


이 경우, 표본평균 \overline{X}는 평균 \mu와 분산 \frac{\sigma^2}{n}을 갖는 분포를 따른다. 귀무 가설은 '표본의 평균(\mu)이 주어진 값 \mu_0와 같다'는 것이다. 검정 통계량으로는 표본 평균 \overline{X}를 사용하며, \overline{X}\mu_0의 차이가 크면 귀무 가설을 기각한다.

표준화된 검정 통계량 Z를 계산하려면 모분산 \sigma^2 또는 모표준편차 \sigma 값을 알아야 s = \sigma/\sqrt{n}를 계산할 수 있다. 하지만 실제 연구에서 모분산을 아는 경우는 드물다.
모분산을 모를 경우

  • 플러그인(Plug-in) 검정: 표본 크기 n이 충분히 크다면(일반적으로 50개 이상 관측치를 기준으로 함), 모분산 \sigma^2 대신 표본 분산 s^2을 사용하여 Z-검정을 근사적으로 수행할 수 있다. 이를 플러그인 검정이라고 한다. 이 검정은 표본 분산 자체의 불확실성을 고려하지 않으므로 엄밀한 의미의 Z-검정은 아니지만, 표본 크기가 크면 상당히 정확한 결과를 제공한다.
  • t-검정: 데이터가 정규 분포를 따른다고 가정할 수 있고 표본 크기가 작거나 모분산을 모를 때는 표본 분산의 불확실성을 고려하는 t-검정을 사용하는 것이 더 정확하다.

Z-검정과 t-검정의 비교

  • Z-검정: 표본 크기가 클 때 (n > 50 등) 또는 모집단 분산을 알 때 사용한다.
  • t-검정: 표본 크기가 작을 때 (n < 50 등) 그리고 모집단 분산을 모를 때 사용한다.


표본 크기가 매우 커지면 t-분포는 표준 정규 분포에 가까워지므로, 큰 표본에서는 t-검정과 Z-검정의 결과(p-값 등)가 거의 동일해진다.

Z-검정은 단일 표본 위치 검정 외에도 두 표본 위치 검정이나 대응 표본 t-검정과 유사한 상황에서도 적용될 수 있다.

5. Z-검정의 조건

중심 극한 정리에 따라, 표본의 크기가 충분히 크면 여러 검정 통계량이 근사적으로 정규 분포를 따른다. 따라서 표본 크기가 크거나 모집단 분산을 알고 있는 경우, 많은 통계적 검정을 근사적인 Z-검정으로 편리하게 수행할 수 있다. 만약 모집단 분산을 알지 못해 표본에서 직접 추정해야 하고 표본 크기가 크지 않다면(''n'' < 30, 경우에 따라 ''n'' < 50), t-검정이 더 적합할 수 있다.

Z-검정을 적용하기 위해서는 다음과 같은 특정 조건들이 충족되어야 한다.


  • 불필요한 매개변수(Nuisance parameters)는 알려져 있거나, 높은 정확도로 추정되어야 한다. 예를 들어, 일표본 위치 검정에서는 표준 편차가 불필요한 매개변수에 해당할 수 있다. Z-검정은 하나의 특정 매개변수에 초점을 맞추고, 다른 알려지지 않은 매개변수들은 실제 값으로 고정된 것으로 간주한다. 실제로는 슬러츠키 정리에 따라, 불필요한 매개변수의 일치 추정량(consistent estimator)을 사용하는 것이 정당화될 수 있다. 하지만 추정치의 정확성을 보장할 만큼 표본 크기가 충분히 크지 않다면, Z-검정의 결과가 부정확할 수 있다.
  • 검정 통계량은 정규 분포를 따라야 한다. 일반적으로 중심 극한 정리를 통해 검정 통계량이 정규 분포를 따른다고 가정한다. 검정 통계량이 언제 근사적으로 정규 분포를 따르는지에 대해서는 많은 통계적 연구가 이루어져 있다. 만약 검정 통계량의 분포가 정규 분포와 크게 다르다면, Z-검정을 사용해서는 안 된다.


불필요한 매개변수의 추정치를 사용할 때는 데이터가 표본 추출된 방식에 맞는 추정 방법을 사용하는 것이 중요하다. 예를 들어, 일표본 또는 이표본 위치 문제에 대한 Z-검정에서 일반적으로 사용되는 표본 표준 편차는 데이터가 독립적인 표본으로 수집되었을 때만 적합하다.

어떤 상황에서는 불필요한 매개변수 추정치의 변동성을 적절히 고려하는 검정 방법을 설계할 수 있는데, 일표본 및 이표본 위치 문제의 경우 t-검정이 이러한 역할을 수행한다.

6. Z-검정과 t-검정

Z-검정은 모집단 분산(σ2)이 알려진 경우, 표본평균을 특정 상수 μ0와 비교하는 위치 검정의 한 종류이다.[1] 예를 들어, 관찰된 데이터 ''X''1, ..., ''X''n이 독립적이고, 공통 평균 μ와 공통 분산 σ2을 가질 때, 표본평균 \overline{X}는 평균 μ와 분산 \frac{\sigma^2}{n}을 따른다.[1] 귀무 가설은 모 평균 μ가 특정 값 μ0와 같다는 것(H0: μ = μ0)이다. 검정 통계량 \overline{X}를 사용하여, \overline{X} - \mu_0 값이 통계적으로 유의미하게 클 경우 귀무 가설을 기각한다.[2]

표준화된 검정 통계량 Z는 다음과 같이 계산한다:

:Z = \frac{\overline{X}-\mu_0}{SE}

여기서 \overline{X}는 표본평균, μ0는 귀무 가설 하의 모 평균, SE는 표준오차이다. 표준오차 SE는 모집단 표준편차 σ와 표본 크기 n을 이용하여 SE = \frac{\sigma}{\sqrt{n}}와 같이 계산한다. 따라서 Z 통계량을 정확히 계산하려면 모집단 분산 σ2을 알아야 한다. 그러나 실제 연구에서 σ2이 정확히 알려진 경우는 드물다.

모집단 분산 σ2을 모르는 경우, 다음과 같은 접근 방법을 사용할 수 있다.


  • 플러그인(Plug-in) 검정: 표본 크기 n이 중간이거나 큰 경우, σ 대신 표본 표준편차 s를 사용하여 Z 통계량을 근사적으로 계산할 수 있다: Z \approx \frac{\bar{X}-\mu_0}{s/\sqrt{n}}. 이 방법은 표본 표준편차 사용에 따른 불확실성을 완전히 고려하지 않으므로 엄밀한 의미의 Z-검정은 아니지만, 표본 크기가 충분히 크면 (일반적으로 n ≥ 50) 좋은 근사치를 제공한다. 어떤 표본 크기가 '충분히 크다'고 간주될 수 있는지에 대한 보편적인 기준은 없으나, 흔히 50개 이상의 관측치를 기준으로 삼는다.
  • t-검정: 데이터가 정규 분포를 따른다고 가정할 수 있고 모집단 분산을 모르는 경우, 표본 표준편차 s를 사용하며 이로 인한 불확실성을 통계적으로 보정하는 t-검정을 사용한다.

Z-검정과 t-검정의 선택 기준은 주로 표본 크기와 모집단 분산의 알려짐 여부에 따라 달라진다.

  • Z-검정: 표본 크기가 크거나 (일반적으로 n > 50) 또는 모집단 분산(σ2)을 알고 있을 때 사용한다.
  • t-검정: 표본 크기가 작고 (일반적으로 n < 50) 모집단 분산(σ2)을 모를 때 사용한다.


표본 크기가 매우 크면, t-분포는 표준정규분포(Z-분포)에 근사하므로 t-검정 결과는 Z-검정 결과와 거의 동일해진다.

Z-검정은 단일 표본 위치 검정 외에도, 두 표본의 평균을 비교하는 두 표본 Z-검정이나 대응 표본 t-검정과 유사한 상황(대응표본 Z-검정) 등 다른 유형의 가설 검정에도 활용될 수 있다.

7. Z-검정 예시 (독해 시험)

어떤 특정 지역의 독해 시험 점수 평균이 100점이고 표준 편차는 12점이라고 가정해 보자. 특정 학교 학생 55명의 점수에 관심이 있는데, 이들의 평균 점수는 96점이었다. 이 점수가 지역 평균보다 유의미하게 낮은지, 즉 이 학교 학생들이 지역 전체에서 무작위로 뽑은 55명의 단순 표본과 비슷한지, 아니면 점수가 이례적으로 낮은 것인지 알아볼 수 있다.

먼저, 평균의 표준 오차 (Standard Error, SE)를 계산한다. 표준 오차는 표본 평균이 모집단 평균으로부터 얼마나 떨어져 있을지를 추정하는 값이다.

:\mathrm{SE} = \frac{\sigma}{\sqrt n} = \frac{12}{\sqrt{55}} \approx \frac{12}{7.42} \approx 1.62

여기서 \sigma는 모집단의 표준 편차이고, n은 표본의 크기이다.

다음으로, 표준 점수 (z-score)를 계산한다. z-점수는 표본 평균(M)이 모집단 평균(\mu)으로부터 표준 오차 단위로 얼마나 떨어져 있는지를 나타낸다.

:z = \frac{M - \mu}{\mathrm{SE}} = \frac{96 - 100}{1.62} \approx -2.47

이 예시에서는 모집단의 평균과 분산(표준 편차의 제곱)을 이미 알고 있다고 가정한다. 이는 지역의 모든 학생이 시험을 봤을 경우에 해당될 수 있다. 만약 모집단의 정보를 모른다면, 스튜던트 t-검정을 사용해야 한다.

계산된 z-점수는 -2.47이다. 이는 해당 학교 학생들의 평균 점수 96점이 모집단 평균 100점보다 2.47 표준 오차만큼 낮다는 것을 의미한다. 표준 정규 분포 표를 참조하여 z-점수가 -2.47보다 작을 확률을 찾아보면 약 0.0068이다 (0.5 - 0.4932 = 0.0068). 이 값은 단측 ''p'' 값이다. 이는 "55명의 학생들이 전체 시험 응시자 집단에서 무작위로 추출된 표본과 다르지 않다"는 귀무 가설이 맞을 확률이 0.68%라는 의미이다. 양측 검정에서의 p-값은 단측 p-값의 두 배인 약 0.014 (1.4%)이다.

다르게 설명하면, 55명의 학생들을 무작위로 뽑았을 때 그들의 평균 점수가 모집단 평균(100점)에서 ±4점 범위 (즉, 96점 ~ 104점) 안에 있을 확률은 1 - 0.014 = 0.986 (98.6%)이다. 따라서 우리는 98.6%의 신뢰 수준에서 "이 55명의 학생들은 전체 집단에서 무작위로 뽑은 표본과 유사하다"는 귀무 가설을 기각할 수 있다. 즉, 이 학생들의 점수는 통계적으로 유의미하게 낮다고 결론 내릴 수 있다.

Z-검정 결과는 이 55명의 학생들이 전체 시험 응시자 집단 내 비슷한 크기의 다른 무작위 표본들과 비교했을 때 평균 점수가 이례적으로 낮다는 것을 보여준다. 하지만 이 분석에는 한계점도 있다. 평균 점수 차이인 4점이라는 효과 크기가 실제로 교육적인 측면에서 의미 있는 차이인지는 고려하지 않는다. 예를 들어, 만약 학생 수가 900명이고 평균 점수가 99점인 하위 지역을 분석했다면, z-점수와 p-값은 55명 학생들의 경우와 거의 동일하게 계산될 수 있다. 이는 표본 크기가 충분히 크면, 실제로는 작은 차이라도 통계적으로는 매우 유의미하게 나타날 수 있음을 시사한다. 이 문제에 대한 더 자세한 논의는 통계적 가설 검정 문서에서 찾아볼 수 있다.

8. 두 비율 Z-검정

'''두 비율 비교를 위한 z-검정'''은 두 개의 독립적인 표본 간에 특정 특성의 비율이 유의미하게 다른지 평가하는 데 사용되는 통계적 방법이다. 이 검정은 표본 비율(이는 베르누이 분포에서 나오는 관측치의 평균이다)이 중심 극한 정리에 따라 점근적으로 정규 분포를 따른다는 속성을 활용하여 z-검정을 구성할 수 있게 한다.

구체적인 z-통계량 계산, 신뢰 구간 설정, 최소 감지 효과(MDE) 계산 등은 관련된 하위 항목에서 더 자세히 다룬다.[1][2]

8. 1. Z-통계량 계산

Z-통계량은 표본 데이터가 특정 모집단에서 나왔는지, 또는 두 표본 그룹 간에 유의미한 차이가 있는지를 검정하는 데 사용된다. 기본적인 Z-통계량 계산 공식은 다음과 같다.

Z = \frac{\overline{X} - \mu}{SE}

여기서 각 기호는 다음을 의미한다.

  • \overline{X}: 표본평균
  • \mu: 모 평균
  • SE: 표준오차


표준오차(SE)는 다음과 같이 계산한다.

SE = \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}

여기서 각 기호는 다음을 의미한다.

  • σ: 모집단의 표준편차(standard deviation)
  • n: 표본의 크기


'''두 비율 비교를 위한 z-검정'''

두 비율 Z-검정은 두 개의 독립적인 표본 간에 특정 특성의 비율이 통계적으로 유의미하게 다른지 평가하는 데 사용된다. 이 검정은 표본 비율 (이는 베르누이 분포에서 나오는 관측치의 평균)이 중심 극한 정리에 따라 점근적으로 정규 분포를 따른다는 원리를 활용한다.

두 비율을 비교하기 위한 z-통계량은 다음과 같이 계산한다.

z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

여기서 각 기호는 다음을 의미한다.

  • \hat{p}_1: 첫 번째 표본의 표본 비율
  • \hat{p}_2: 두 번째 표본의 표본 비율
  • n_1: 첫 번째 표본의 크기
  • n_2: 두 번째 표본의 크기
  • \hat{p}: 결합 비율. \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}로 계산하며, x_1x_2는 각 표본에서의 성공 횟수이다.


위의 정의를 바탕으로 두 비율 간의 차이에 대한 신뢰 구간은 다음과 같이 구할 수 있다.

(\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}

여기서 z_{\alpha/2}는 표준 정규 분포의 임계값이다 (예: 95% 신뢰 수준의 경우 1.96).

두 비율 비교를 위한 (양측) z-검정 공식을 사용할 때의 최소 감지 효과(MDE)는 유의 수준(\alpha)과 검정력(1-\beta)에 대한 임계값, 그리고 비율의 표준 오차를 포함하여 다음과 같이 계산한다.[1][2]



\text{MDE} = |p_1 - p_2| = z_{1-\alpha/2} \sqrt{p_0(1-p_0)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} + z_{1-\beta} \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}



여기서 각 기호는 다음을 의미한다.

  • z_{1-\alpha/2}: 유의 수준에 대한 임계값.
  • z_{1-\beta}: 원하는 검정력에 대한 분위수.
  • p_0=p_1=p_2: 귀무 가설이 참이라고 가정할 때의 비율.


'''Z-점수 계산 단계'''

Z-점수를 계산하기 위해서는 다음 값들이 필요하다.

  • σ: 모집단의 표준편차
  • μ: 모집단의 모 평균
  • ''x'': 표본의 평균
  • ''n'': 표본 크기


계산 단계는 다음과 같다.

1. 평균의 표준오차(SE)를 다음 식으로 구한다.

SE = \frac{\sigma}{\sqrt n}

2. Z-점수를 다음 식으로 구한다.

z = \frac{x-\mu}{SE}

3. 계산된 Z-점수를 표준정규분포표(Z-table)와 비교하여, 해당 값이 통계적으로 유의미한 차이를 나타내는지 판단한다. 즉, 계산된 Z값이 우연히 발생할 수 있는 범위 내에 있는지, 아니면 모평균과 상당히 달라 우연으로 보기 어려운지를 평가한다.

8. 2. 신뢰 구간

두 비율 비교를 위한 z-검정은 두 개의 독립적인 표본 간에 특정 특성의 비율이 유의미하게 다른지 평가하는 데 사용되는 통계적 방법이다.[1][2] 이 검정은 표본 비율(이는 베르누이 분포에서 나오는 관측치의 평균이다)이 중심 극한 정리에 따라 점근적으로 정규 분포를 따른다는 속성을 활용한다.

두 비율을 비교하기 위한 z-통계량은 다음과 같이 계산된다.

z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}

여기서 각 기호는 다음을 의미한다.

  • \hat{p}_1: 첫 번째 표본의 표본 비율
  • \hat{p}_2: 두 번째 표본의 표본 비율
  • n_1: 첫 번째 표본의 크기
  • n_2: 두 번째 표본의 크기
  • \hat{p}: 결합 비율, \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}로 계산되며, 여기서 x_1x_2는 두 표본에서의 성공 횟수이다.


위에 정의된 내용을 바탕으로 두 비율 간의 차이에 대한 신뢰 구간은 다음과 같이 계산할 수 있다.

(\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}

여기서 z_{\alpha/2}는 표준 정규 분포의 임계값이다. 예를 들어 95% 신뢰 수준의 경우 1.96 값을 사용한다.

8. 3. 최소 감지 효과 (MDE)

두 비율을 비교하기 위한 양측 z-검정 공식을 사용할 때의 최소 감지 효과(Minimum Detectable Effect, MDE)는 유의 수준(\alpha)과 검정력(1-\beta)에 대한 임계값, 그리고 비율의 표준 오차를 포함하여 계산된다.[1][2] MDE는 통계적으로 유의미하게 감지할 수 있는 두 비율 간의 최소 차이를 의미한다.

MDE 공식은 다음과 같다.



\text{MDE} = |p_1 - p_2| = z_{1-\alpha/2} \sqrt{p_0(1-p_0)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)} + z_{1-\beta} \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}



여기서 각 기호는 다음을 의미한다.

  • p_1, p_2: 비교하려는 두 집단의 실제 비율 (또는 대립 가설 하에서의 비율)
  • n_1, n_2: 각 집단의 표본 크기
  • p_0: 귀무 가설 하에서의 비율 (일반적으로 p_0 = p_1 = p_2로 가정하거나, 두 표본을 합친 비율 \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}를 사용)
  • z_{1-\alpha/2}: 양측 검정에서 설정된 유의 수준 \alpha에 해당하는 표준 정규 분포의 임계값 (예: \alpha = 0.05일 때 z_{0.975} \approx 1.96)
  • z_{1-\beta}: 원하는 검정력 1-\beta에 해당하는 표준 정규 분포의 분위수 (예: 검정력 80% 즉, \beta = 0.2일 때 z_{0.8} \approx 0.84)

참조

[1] 웹사이트 Two proportion sample size calculation https://stats.stacke[...] 2023-04-14
[2] 서적 Sample size calculations in clinical research CRC Press 2018



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com