맨위로가기

유의 확률

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

유의 확률(p-value)은 귀무 가설이 참이라고 가정했을 때, 관찰된 표본 이상으로 극단적인 결과를 얻을 확률을 의미한다. 통계적 가설 검정에서 결과의 통계적 유의성을 정량화하는 데 사용되며, p-값이 낮을수록 귀무 가설이 참일 경우 해당 결과를 얻을 확률이 낮다. p-값은 검정 통계량의 함수이며, 단측 검정, 양측 검정 등에 따라 계산 방식이 다르다. 유의 확률은 통계적 가설 검정에서 널리 사용되지만, 오용과 오해의 소지가 있어, 미국 통계 협회(ASA)는 p-값의 사용에 주의를 기울일 것을 권고한다.

더 읽어볼만한 페이지

  • 확률 - 불확실성
    불확실성이란 현재나 미래를 정확히 예측할 수 없는 상태를 말하며, 확률을 알 수 없는 근본적인 불확실성도 존재하고, 바람직하지 않은 결과를 초래할 수 있는 위험과는 구별되며, 과학, 경제, 철학 등 다양한 분야에서 다뤄지는 중요한 개념이다.
  • 확률 - 원형 공산 오차
    원형 공산 오차(CEP)는 탄착군의 정확도를 나타내는 지표로서, 평균 착탄 지점으로부터 50%의 탄착군이 위치하는 원의 반지름을 의미한다.
  • 가설 검정 - 귀무 가설
    귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다.
  • 가설 검정 - 피어슨 상관 계수
    피어슨 상관 계수는 두 변수 간의 선형 관계를 측정하는 지표로, -1과 1 사이의 값을 가지며, 1 또는 -1에 가까울수록 강한 선형 관계를 나타낸다.
  • 통계학 용어 - 퍼센트 포인트
    퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다.
  • 통계학 용어 - 편차
    편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.
유의 확률
개요
정의귀무 가설이 참이라고 가정할 때, 관찰된 결과와 같거나 더 극단적인 결과가 실제로 관찰될 확률
다른 이름유의 확률
귀무 가설의 유의성 검정에서 얻어지는 유의 수준
계산
계산 방법검정 통계량의 분포에서 관찰된 검정 통계량 값 또는 그보다 더 극단적인 값이 나타날 확률을 계산
해석
일반적인 해석p-값이 작을수록 귀무 가설이 기각될 가능성이 높아짐
p < 0.05: 통계적으로 유의미하다고 판단 (일반적으로 사용되는 유의 수준)
오해p-값은 연구 가설이 참일 확률이 아님
p-값은 효과의 크기나 중요성을 나타내지 않음
활용
사용 분야과학, 의학, 공학, 경제학 등 다양한 분야에서 가설 검정에 사용
대안베이즈 요인, 신뢰 구간 등을 사용하여 통계적 증거를 평가
논쟁
비판p-값이 연구 결과를 과장하거나 오해를 불러일으킬 수 있다는 비판 존재
p-값의 오용과 과도한 의존은 재현성 위기의 원인 중 하나로 지적됨
대안통계적 유의성에 대한 강조를 줄이고, 효과 크기, 신뢰 구간, 베이즈 통계학적 방법 등을 함께 고려하는 것이 권장됨

2. 기본 개념

주어진 표본의 '''유의 확률'''은 귀무가설을 가정하였을 때 표본 이상으로 극단적인 결과를 얻을 확률이다. "더 극단적"이라는 것은 정의에 따라 다른데, 예를 들어 정규분포의 경우 귀무가설을 가정한 실수 확률변수 X\colon\mathbb P\to\mathbb R와 표본 x\in\mathbb R에 대하여 다음과 같이 정의할 수 있다.


  • '''왼쪽 꼬리 유의 확률'''(left-tail ''p''-value영어)

:p_{\text{L}}(x)=\Pr(X\le x)

  • '''오른쪽 꼬리 유의 확률'''(right-tail ''p''-value영어)

:p_{\text{R}}(x)=\Pr(X\ge x)

  • '''양쪽 꼬리 유의 확률'''(double-tail ''p''-value영어)

:p_{\text{D}}(x)=\Pr(x\ge X\lor 2\operatorname{E}(X)-x

확률 변수가 단순한 실수가 아닌 경우, 더 복잡한 "극단성"을 정의해야 한다. 예를 들어 표본이 노름공간에 있다면, 노름함수 \Vert\cdot\Vert를 사용하여 표본 \mathbf x의 유의 확률을 다음과 같이 정의할 수 있다.

:p(\mathbf x)=\Pr(\Vert\mathbf x\Vert\ge\Vert\mathbf X\Vert)

통계학에서 어떤 연구에서 관찰된 데이터를 나타내는 확률 변수에 관한 추측을 ''통계적 가설''이라 한다. 귀무 가설 검정은 하나의 가설이 타당한지 여부를 확인하는 검정 방법이다.

''p''-값(유의 확률)은 귀무 가설 검정에서 결과의 통계적 유의성을 정량화하는 데 사용된다.[55] ''p''-값이 낮을수록 귀무 가설이 참일 때 해당 결과를 얻을 확률이 낮다는 것을 의미한다. 어떤 결과가 귀무 가설을 기각할 수 있다면 ''통계적으로 유의미하다''고 한다.

2. 1. 통계적 가설 검정

통계적 가설 검정은 어떤 연구에서 관찰된 데이터가 특정 확률 분포를 따르는지에 대한 추측, 즉 통계적 가설의 타당성을 평가하는 방법이다. 이 방법은 주로 귀무 가설 검정을 통해 이루어지는데, 귀무 가설은 관심 대상인 모집단의 특정 매개변수(예: 상관 관계, 평균 간 차이)가 0이라는 가설이다.

귀무 가설 검정에서는 먼저 귀무 가설과 대립 가설을 설정한다. 귀무 가설은 기각하고자 하는 가설이며, 대립 가설은 귀무 가설이 기각될 때 받아들여지는 가설이다. 예를 들어, "어떤 요약 통계량 T가 표준 정규 분포 \mathcal N(0, 1)을 따른다"는 귀무 가설을 기각하면, (1) T의 평균이 0이 아니거나, (2) T의 분산이 1이 아니거나, (3) T가 정규 분포를 따르지 않는다는 것을 의미할 수 있다.

다음으로, 유의 수준 \alpha를 결정한다. 유의 수준은 귀무 가설이 참인데도 불구하고 이를 기각하는 오류(제1종 오류)를 범할 확률의 최대 허용 한계이다. 일반적으로 0.05가 사용되지만, 더 낮은 수준이 사용되기도 한다.

그 후, 검정 통계량을 계산한다. 검정 통계량은 귀무 가설 하에서 관찰된 데이터가 얼마나 극단적인지를 나타내는 값이다. ''p''-값은 귀무 가설이 참일 때, 관찰된 검정 통계량과 같거나 더 극단적인 값을 얻을 확률이다.

마지막으로, ''p''-값을 유의 수준과 비교하여 귀무 가설의 기각 여부를 결정한다. ''p''-값이 유의 수준보다 작으면 귀무 가설을 기각하고, 그렇지 않으면 귀무 가설을 기각하지 않는다.

''p''값은 귀무 가설 검정에서 결과의 통계적 유의성을 정량화하는 데 사용된다. ''p''값이 낮을수록 귀무 가설이 참일 때 해당 결과를 얻을 확률이 낮다는 것을 의미하며, 이는 귀무 가설에 대한 더 강력한 증거로 간주된다. 그러나 통계적 유의성이 실제 현실 세계와 관련된 의미를 갖는다는 것을 의미하지는 않는다.[55] 예를 들어, 약물이 통계적으로 유의미한 효과를 가질 수 있지만, 그 효과가 너무 작아서 흥미롭지 않을 수 있다.

''p''값은 널리 사용되지만, 주의해서 해석해야 한다. ''p''값은 가설의 확실성을 나타내는 것이 아니라, 귀무 가설을 기각할지 여부를 판단하는 도구일 뿐이다.[61]

2. 2. 귀무 가설과 대립 가설

통계적 가설 검정에서 귀무 가설(null hypothesis)은 "효과가 없다" 또는 "차이가 없다"는 형태로 설정되는 가설이다. 일반적으로 관심 대상인 모집단의 어떤 매개변수(예: 상관 관계 또는 평균 간의 차이)가 0이라는 것이다. 예를 들어, "어떤 요약 통계량 T가 표준 정규 분포 \mathcal N(0, 1)을 따른다"는 귀무 가설이 있을 수 있다.
대립 가설(alternative hypothesis)은 귀무 가설과 반대로 "효과가 있다" 또는 "차이가 있다"는 형태로 설정되는 가설이다. 위의 예시에서 귀무 가설이 기각된다면, (1) T의 평균이 0이 아니다, (2) T의 분산이 1이 아니다, (3) T가 정규 분포를 따르지 않는다, 중 하나를 의미할 수 있다.

귀무 가설 검정에서 귀무 가설의 기각은 대립 가설에 대한 충분한 증거가 있음을 의미한다.

2. 3. 유의 수준

유의 수준(Significance level영어)은 통계적 유의성 검정에서 사용되는 중요한 개념이다. 예르지 네이만은 "실질적인 통계학자가 피하려 할 중요한 오류(주관적인 판단)를 제1종 오류"라고 정의하며, 제1종 오류를 범할 확률의 최댓값을 유의 수준이라고 정의하였다.[8]

유의성 검정에서 귀무 가설은 p-값이 사전에 정의된 임계값 \alpha보다 작거나 같으면 기각된다. 이 \alpha 값을 알파 수준 또는 유의 수준이라고 한다. \alpha는 데이터를 조사하기 전에 연구자가 설정하며, 일반적으로 0.05로 설정되지만, 더 낮은 알파 수준이 사용되기도 한다. 0.05 값(1/20의 확률)은 1925년 로널드 피셔가 그의 저서 "연구자를 위한 통계적 방법"에서 처음 제안했다.[9] 2018년, 다니엘 벤자민이 이끄는 통계학자 그룹은 통계적 유의성에 대한 표준 값으로 0.005 값을 채택할 것을 제안하기도 했다.[10]

3. 정의 및 해석

주어진 표본의 '''유의 확률'''은 귀무가설을 가정했을 때 표본 이상으로 극단적인 결과를 얻을 확률이다. '더 극단적'이라는 것은 정의에 따라 다르다. 만약 확률 변수가 단순한 실수가 아니라면, 더 복잡한 '극단성'을 정의해야 한다.

유의 확률(p-value)은 귀무 가설 하에서 얻어진 실제 값의 검정 통계량이 관측된 것만큼, 또는 그 이상으로 극단적인 값을 얻을 확률이다.

통계학에서 어떤 연구에서의 관측 데이터 X를 나타내는 확률변수의 집합에 대해, 미지의 확률 분포에 관한 모든 추측을 통계적 가설이라 한다. 통계적 검정의 목적이 단 하나의 가설이 타당한지 여부를 검증하는 것이고, 다른 특정 가설을 검증하는 것이 아닌 경우, 그러한 검정은 귀무 가설 검정(기각 검정)이라고 불린다.

정의상, 통계적 가설은 분포의 어떤 특징을 가리키는 것이며, 귀무 가설은 그 특징이 존재하지 않는다는 기본 가설을 가리킨다. 일반적으로 귀무 가설은 관심 있는 모집단의 어떤 파라미터(상관 관계나 평균값의 차이 등)가 0이라는 가설이다. 그 가설은 X의 확률 분포를 정확하게 특정하는 경우도 있고, X가 어떤 분포의 클래스에 속한다는 것만을 특정하는 경우도 있다. 많은 경우, 데이터는 단일 수치 통계(T 등)로 단순화되며, 그 주변 확률 분포는 연구에서 주요 관심사와 밀접하게 관련되어 있다.

''p''값은 선택한 통계량 T의 관측 결과의 통계적 유의성을 정량화하기 위해 귀무 가설 검정의 맥락에서 사용된다. ''p''값이 낮을수록, 귀무 가설이 옳을 경우에 그 결과를 얻을 확률이 낮다는 것을 의미한다. 귀무 가설을 기각할 수 있는 경우, 그 결과는 통계적으로 유의미하다고 간주된다. 다른 조건이 모두 같다면, ''p''값이 작을수록, 귀무 가설을 부정하는 더 강한 증거로 간주된다.

대략적으로 말하면, 귀무 가설의 기각은 그것과 반대되는 충분한 증거가 있다는 것을 의미한다.

예를 들어, "어떤 요약 통계량 T가 표준 정규 분포 \mathcal N(0, 1)을 따른다"는 귀무 가설이 세워진 경우, 이 귀무 가설을 기각한다는 것은 (1) T의 평균이 0이 아니다, (2) T의 분산이 1이 아니다, (3) T가 정규 분포를 따르지 않는다, 중 하나를 의미할 수 있다. 같은 귀무 가설에 대한 서로 다른 검정은 대립 가설에 대한 민감도가 각각 다르다. 그러나 세 가지 대립 가설 모두 귀무 가설을 기각할 수 있고, 그 분포가 정규 분포이며 분산이 1이라고 알려져 있더라도, 귀무 가설 검정에서는 평균이 0이 아닌 값 중 어떤 것이 가장 타당한지는 알 수 없다. 같은 확률 분포를 따르는 독립적인 관측값이 많으면 많을수록, 그 검정의 정확도는 향상되고, 평균값을 정확하게 결정하고 그것이 0이 아님을 보여주는 정밀도도 높아진다.

3. 1. 단측 검정과 양측 검정

left-tail ''p''-value|왼쪽 꼬리 유의 확률영어)은 귀무가설을 가정했을 때 표본 이상으로 극단적인 결과가 왼쪽으로 치우쳐 나타날 확률을 의미하며, right-tail ''p''-value|오른쪽 꼬리 유의 확률영어)은 귀무가설을 가정했을 때 표본 이상으로 극단적인 결과가 오른쪽으로 치우쳐 나타날 확률을 의미한다. double-tail ''p''-value|양쪽 꼬리 유의 확률영어)은 귀무가설을 가정했을 때 표본 이상으로 극단적인 결과가 양쪽으로 나타날 확률을 의미한다.

예를 들어, 정규분포에서 귀무가설을 가정한 실수 확률변수 X\colon\mathbb P\to\mathbb R와 표본 x\in\mathbb R에 대해, 왼쪽 꼬리 유의 확률, 오른쪽 꼬리 유의 확률, 양쪽 꼬리 유의 확률은 다음과 같이 정의할 수 있다.

  • 왼쪽 꼬리 유의 확률: p_{\text{L}}(x)=\Pr(X\le x)
  • 오른쪽 꼬리 유의 확률: p_{\text{R}}(x)=\Pr(X\ge x)
  • 양쪽 꼬리 유의 확률: p_{\text{D}}(x)=\Pr(x\ge X\lor 2\operatorname{E}(X)-x


확률 변수가 단순한 실수가 아닌, 노름공간에 있는 표본의 경우 노름함수 \Vert\cdot\Vert를 사용하여 유의 확률을 정의할 수도 있다.

:p(\mathbf x)=\Pr(\Vert\mathbf x\Vert\ge\Vert\mathbf X\Vert)

단측 검정은 한쪽 방향으로의 극단적인 결과에만 관심이 있는 경우 사용하며, 양측 검정은 양쪽 방향 모두의 극단적인 결과에 관심이 있는 경우 사용한다.

검정 통계량 분포에 따른 유의확률은 다음과 같다.

  • 오른쪽 꼬리 단측 검정 통계량 분포: p = \Pr(T \geq t \mid H_0)
  • 왼쪽 꼬리 단측 검정 통계량 분포: p = \Pr(T \leq t \mid H_0)
  • 양측 검정 통계량 분포: p = 2\min\{\Pr(T \geq t \mid H_0),\Pr(T \leq t \mid H_0)\} (T의 분포가 0에 대해 대칭이라면, p = \Pr(|T| \geq |t| \mid H_0))


동전 던지기를 예로 들어 공정한 동전인지 확인하는 실험을 생각해 보자. 20번 던져서 앞면이 14번 나왔다면, 귀무 가설(동전은 공정하다) 하에서 이 결과의 유의 확률을 계산할 수 있다.

  • 단측 검정: 동전이 앞면에 편향되었을 가능성에만 관심이 있다면, 단측 검정을 사용한다. 이 경우 유의 확률은 공정한 동전으로 20번 던졌을 때 최소 14번 앞면이 나올 확률이며, 이항 계수를 사용하여 계산하면 약 0.058이다.
  • 양측 검정: 앞면 또는 뒷면 어느 쪽으로든 편향되었을 가능성에 관심이 있다면, 양측 검정을 사용한다. 이항 분포는 공정한 동전에 대해 대칭이므로, 양측 유의 확률은 단측 유의 확률의 두 배인 0.115가 된다.


위의 예에서 귀무 가설, 검정 통계량, 알파 수준, 관측치는 다음과 같다.

  • 귀무 가설 (''H''0): 동전은 공정하며, Pr(앞면) = 0.5.
  • 검정 통계량: 앞면의 수.
  • 알파 수준 (지정된 유의 수준): 0.05.
  • 관측치 ''O'': 20번의 던지기 중 14번 앞면.


계산된 양측 유의 확률(0.115)이 유의 수준(0.05)보다 크므로, 귀무 가설을 기각할 수 없다. 즉, 동전이 공정하지 않다고 단정할 수 없다. 그러나 앞면이 한 번 더 나왔다면 양측 유의 확률은 0.0414가 되어 귀무 가설을 기각할 수 있었을 것이다.

3. 2. 유의 확률의 분포

p값은 선택된 검정 통계량 ''T''의 함수이며, 따라서 확률 변수이다. 귀무 가설이 ''T''의 확률 분포를 정확하게 고정하고, 그 분포가 연속적이면, 귀무 가설이 참일 때 p값은 0과 1 사이에서 균등 분포를 따른다.[11] 동일한 검정을 새로운 데이터로 독립적으로 반복하면, 각 반복에서 일반적으로 다른 p값을 얻게 된다.

보통 가설과 관련된 단일 p값만 관찰되므로, p값은 유의성 검정에 의해 해석되며, p값이 추출된 분포를 추정하려는 시도는 이루어지지 않는다. 일련의 p값을 사용할 수 있는 경우, p값의 분포를 때때로 p-곡선이라고 한다.[11][12]

귀무 가설이 복합 가설인 경우 (또는 통계량의 분포가 이산적인 경우), 귀무 가설이 참이면 0에서 1까지의 임의의 수치 이하가 되는 ''p''값을 얻을 확률은 여전히 그 수치를 밑돈다. 다시 말해, 귀무 가설이 참인 경우, 매우 작은 ''p''값은 비교적 발생하기 어렵고, ''p''값이 \alpha보다 작은 경우, 귀무 가설을 기각함으로써 \alpha수준에서 유의미한 차이가 있다는 상황에는 변함이 없다.[59][60]

3. 3. 복합 가설

모수 가설 검정 문제에서 단순 가설은 모숫값이 단일 숫자라고 가정하는 반면, 복합 가설은 모숫값이 숫자 집합으로 주어진다고 가정한다. 예를 들어, 분포의 평균이 0보다 작거나 같다는 귀무 가설(H_0: \mu \leq 0)을 평균이 0보다 크다는 대립 가설에 대해 검정할 때, 귀무 가설은 검정 통계량의 정확한 확률 분포를 지정하지 않는다. 이 경우 단측 일표본 ''Z''-검정에 속하는 ''Z''-통계량이 사용되는데, 이론적 평균의 각 가능한 값에 대해 ''Z''-검정 통계량은 서로 다른 확률 분포를 갖는다.

복합 가설에서 ''p''-값(유의 확률)은 가장 불리한 귀무 가설 경우를 취하여 정의되며, 이는 일반적으로 귀무 가설과 대립 가설의 경계에 있다. 이 정의는 p-값과 유의 수준(\alpha)의 상호 보완성을 보장한다. 즉, \alpha = 0.05는 ''p''-값이 0.05보다 작거나 같을 경우에만 귀무 가설을 기각한다는 것을 의미하며, 가설 검정은 실제로 0.05의 ''최대'' 제1종 오류율을 갖게 된다.[13][14]

귀무 가설이 복합 가설인 경우, 귀무 가설이 참일 때 0과 1 사이의 임의의 숫자보다 작거나 같은 ''p''-값을 얻을 확률은 여전히 그 숫자보다 작거나 같다. 즉, 귀무 가설이 참일 경우 매우 작은 ''p''-값은 상대적으로 드물며, 유의 수준 \alpha에서의 유의성 검정은 ''p''-값이 \alpha보다 작거나 같으면 귀무 가설을 기각함으로써 얻어진다.[59][60]

4. 사용 및 오용

''p''-값은 통계적 가설 검정, 특히 귀무 가설 유의성 검정에서 널리 사용된다. 연구 수행 전, 모델(귀무 가설)과 유의 수준 α (주로 0.05)를 선택한다. 데이터 분석 후 ''p''-값이 α보다 작으면, 관찰된 데이터가 귀무 가설과 충분히 일치하지 않아 귀무 가설을 기각한다. 그러나 ''p''-값 자체는 가설의 확률을 설정하지 않으며, 귀무 가설 기각 여부를 결정하는 도구일 뿐이다.[61]

미국 통계 협회(ASA)는 유의 확률이 종종 오용되고 오해받는다고 지적했다.[3] 특히, 다른 증거 없이 0.05 미만의 유의 확률로 대립 가설을 수용하는 관행은 비판받는다. 유의 확률은 데이터가 지정된 통계 모델과 얼마나 호환되지 않는지 평가하는 데 유용하지만, "연구 설계, 측정 품질, 연구 대상 현상에 대한 외부 증거, 데이터 분석의 기본 가정의 타당성" 등 상황적 요인도 고려해야 한다.[3] 유의 확률이 귀무 가설이 참일 확률로 오해되는 경우도 많다.[3][16]

이러한 문제점 때문에 일부 통계학자들은 유의 확률 대신 신뢰 구간,[17][18] 가능도 비,[19][20] 베이즈 요인[21][22][23] 등 다른 추론 통계를 사용할 것을 제안한다. 하지만 이러한 대안들의 실현 가능성에 대해서는 격렬한 논쟁이 있다.[24][25] 고정된 유의성 임계값을 제거하고 유의 확률을 귀무 가설에 대한 증거 강도를 나타내는 연속적인 지표로 해석하자는 의견[26][27]과, 유의 확률과 함께 사전 지정된 임계값 미만의 거짓 양성 위험을 얻는 데 필요한 실제 효과의 사전 확률을 보고하자는 의견[28]도 있다.

2019년, ASA 태스크 포스는 과학 연구에서 통계적 방법, 특히 가설 검정 및 유의 확률 사용과 재현성과의 관련성을 고려하기 위해 소집되었다.[7] 태스크 포스는 "불확실성의 서로 다른 척도는 서로 보완될 수 있으며, 단일 척도가 모든 목적에 부합하는 것은 아니다"라고 명시하며 유의 확률을 언급했다. 또한 특정 값뿐 아니라 일부 임계값과 비교할 때 유의 확률이 귀중한 정보를 제공할 수 있음을 강조하며, "유의 확률과 유의성 검정은 적절하게 적용되고 해석될 때 데이터에서 도출된 결론의 엄격성을 높인다"고 강조한다.

4. 1. 유의 확률의 오용 사례

미국 통계 협회(ASA)에 따르면, 유의 확률은 종종 오용되고 오해를 받는다고 널리 알려져 있다.[3] 특히 비판받는 관행은 다른 증거 없이 유의 확률이 0.05 미만이라는 이유만으로 대립 가설을 수용하는 것이다. 유의 확률은 데이터가 특정 통계 모델과 얼마나 맞지 않는지 평가하는 데 도움이 되지만, "연구 설계, 측정 품질, 연구 대상 현상에 대한 외부 증거, 데이터 분석의 기본 가정의 타당성" 등 다른 요인도 함께 고려해야 한다.[3] 또한 유의 확률을 귀무 가설이 참일 확률로 오해하는 경우도 많다.[3][16]

유의 확률 오용은 다음과 같은 문제를 일으킬 수 있다.

  • 귀무 가설이 참일 확률로 해석하는 오류: 유의 확률은 귀무 가설이 참일 때, 관측된 결과 또는 그보다 더 극단적인 결과가 나올 확률이다. 즉, 데이터에 대한 확률이지 가설에 대한 확률이 아니다.
  • 연구 결과의 중요성을 과장하는 오류: 유의 확률이 작다고 해서 연구 결과가 실제로 중요하다는 뜻은 아니다. 효과 크기, 표본 크기, 연구 설계 등 다른 요인을 함께 고려해야 한다.
  • 대립 가설을 섣불리 수용하는 오류: 다른 증거 없이 유의 확률만으로 대립 가설을 받아들이는 것은 성급한 판단이다.

4. 2. 대안적인 통계적 추론 방법

미국 통계 협회(ASA)에 따르면, 유의 확률은 종종 오용되고 오해를 받는다는 데 널리 동의하고 있다.[3] 유의 확률은 데이터가 지정된 통계 모델과 얼마나 호환되지 않는지 평가하는 데 도움이 되지만, "연구 설계, 측정 품질, 연구 대상 현상에 대한 외부 증거, 데이터 분석의 기본이 되는 가정의 타당성"과 같은 상황적 요인도 고려해야 한다.[3] 또 다른 우려는 유의 확률이 귀무 가설이 참일 확률로 오해되는 경우가 많다는 것이다.[3][16]

일부 통계학자들은 유의 확률을 포기하고 신뢰 구간,[17][18] 가능도 비,[19][20] 또는 베이즈 요인[21][22][23]과 같은 다른 추론 통계에 더 집중할 것을 제안했지만, 이러한 대안의 실현 가능성에 대한 격렬한 논쟁이 있다.[24][25] 다른 사람들은 고정된 유의성 임계값을 제거하고 유의 확률을 귀무 가설에 대한 증거의 강도를 나타내는 연속 지표로 해석할 것을 제안했다.[26][27] 또 다른 사람들은 사전 지정된 임계값(예: 5%) 미만의 거짓 양성 위험(즉, 실제 효과가 없을 확률)을 얻는 데 필요한 실제 효과의 사전 확률을 유의 확률과 함께 보고할 것을 제안했다.[28]

5. 계산

유의 확률(p-value)은 귀무 가설이 참이라고 가정했을 때, 표본에서 얻은 결과만큼 극단적이거나 그보다 더 극단적인 결과를 얻을 확률이다. 여기서 '더 극단적'이라는 표현은 정의에 따라 달라진다.[75] 예를 들어, 정규 분포의 경우 귀무 가설을 가정한 확률 변수 X와 표본 x에 대해 다음과 같이 정의할 수 있다.


  • '''왼쪽 꼬리 유의 확률''' (left-tail ''p''-value영어): p_{\text{L}}(x)=\Pr(X\le x)
  • '''오른쪽 꼬리 유의 확률''' (right-tail ''p''-value영어): p_{\text{R}}(x)=\Pr(X\ge x)
  • '''양쪽 꼬리 유의 확률''' (double-tail ''p''-value영어): p_{\text{D}}(x)=\Pr(x\ge X\lor 2\operatorname{E}(X)-x


확률 변수가 실수가 아닌 경우, 더 복잡한 "극단성"을 정의해야 한다. 예를 들어, 표본이 노름공간에 있는 경우, 노름함수 \Vert\cdot\Vert를 사용하여 유의 확률을 p(\mathbf x)=\Pr(\Vert\mathbf x\Vert\ge\Vert\mathbf X\Vert)로 정의할 수 있다.[75]

관측된 검정 통계량 t를 알 수 없는 분포 T에서 고려하면, 유의 확률 p는 귀무 가설 H_0가 참일 때 검정 통계량 값이 t만큼, 또는 그 이상으로 "극단적인" 값을 관측할 확률이다. 즉,

  • 오른쪽 꼬리 단측 검정: p = \Pr(T \geq t \mid H_0)
  • 왼쪽 꼬리 단측 검정: p = \Pr(T \leq t \mid H_0)
  • 양측 검정: p = 2\min\{\Pr(T \geq t \mid H_0),\Pr(T \leq t \mid H_0)\} (T의 분포가 0에 대해 대칭이면, p = \Pr(|T| \geq |t| \mid H_0))

5. 1. 검정 통계량

검정 통계량은 관측된 데이터를 요약하는 단일 숫자이다. 이 통계량은 모든 관측값의 스칼라 함수의 출력값으로, ''t''-통계량이나 ''F''-검정과 같은 값을 제공한다.[75] 검정 통계량은 해당 검정 통계량을 정의하는 데 사용된 함수와 입력 관측 데이터의 분포에 의해 결정되는 분포를 따른다.[75]

데이터가 정규 분포에서 추출된 무작위 표본이라고 가정할 때, 검정 통계량의 특성과 해당 분포에 대한 가설에 따라 다양한 귀무 가설 검정이 개발되었다. 예를 들어, 분산이 알려진 정규 분포의 평균에 대한 가설에는 ''z''-검정이, 분산이 알려지지 않은 경우에는 ''t''-검정이 사용된다. ''t''-검정은 적절한 통계량의 스튜던트 ''t''-분포를 기반으로 한다. 분산에 대한 가설에는 ''F''-분포를 기반으로 한 ''F''-검정이 사용된다. 피어슨 카이제곱 검정의 경우처럼, 범주형(이산형) 데이터와 같이 다른 특성의 데이터의 경우에는 중심 극한 정리를 적용하여 얻은 적절한 통계량에 대한 정규 근사를 기반으로 귀무 가설 분포를 구성할 수 있다.[75]

5. 2. 다양한 귀무 가설 검정

''z''-검정, ''t''-검정, ''F''-검정, 피어슨 카이제곱 검정 등 다양한 귀무 가설 검정 방법이 사용된다.

  • '''z''-검정''': 분산을 알고 있는 정규 분포의 평균에 대한 가설 검정에 사용된다.
  • '''t''-검정''': 분산이 알려지지 않은 정규 분포의 평균에 대한 가설 검정에 사용되며, 스튜던트 t-분포를 기반으로 한다.
  • '''F''-검정''': 분산에 대한 가설 검정에 사용되며, F-분포를 기반으로 한다.
  • '''피어슨 카이제곱 검정''': 범주형(이산형) 데이터의 경우, 중심 극한 정리를 적용하여 얻은 적절한 통계량에 대한 정규 근사를 기반으로 귀무 가설 분포를 구성하여 사용한다.


이처럼 ''p'' 값을 계산하려면 귀무 가설, 검정 통계량(연구자가 단측 검정 또는 양측 검정을 수행하는지 결정하는 것과 함께), 데이터가 필요하다.[75] 주어진 데이터에 대한 검정 통계량 계산은 쉬울 수 있지만, 귀무 가설 하에서 표본 분포를 계산하고 누적 분포 함수(CDF)를 계산하는 것은 종종 어려운 문제이다. 오늘날 이 계산은 통계 소프트웨어를 사용하여 수치적 방법으로 수행되지만, 20세기 초중반에는 값 표를 사용하여 ''p'' 값을 보간하거나 외삽했다.

6. 역사

''p''-값(유의 확률) 계산은 1700년대 존 아버스노트가 출생 시 인간 성비를 연구하면서 시작되었다.[31] 그는 남녀 출생 확률이 동일하다는 귀무 가설 하에, 관측된 성비 불균형이 나타날 확률을 계산하여 통계적 유의성을 평가했다.

갈색 로브와 머리 덮개를 착용한 남자의 가슴 높이 초상화
존 아버스노트


피에르시몽 라플라스


카메라를 올려다보며 책상에 앉아있는 남자
칼 피어슨


정장을 입고 메달과 철테 안경을 쓴 젊은 남자의 세피아톤 사진
로널드 피셔


이후 피에르시몽 라플라스는 더 많은 출생 데이터를 바탕으로 유사한 연구를 진행하여, 남아가 여아보다 많이 태어나는 현상이 실제로 존재한다는 결론을 내렸다.[38]

''p''-값은 칼 피어슨이 피어슨의 카이제곱 검정을 개발하면서 처음 공식적으로 도입되었다.[39] 로널드 피셔는 ''p''-값의 개념을 통계학 전반에 걸쳐 대중화하고, 그 사용법을 체계화하는 데 크게 기여했다.[40][41]

6. 1. 존 아버스노트와 인간 성비 연구

존 아버스노트는 1710년에 출생 시 인간 성비에 대한 연구를 수행했는데, 이는 ''p''-값 개념의 초기 사례로 평가받는다.[31] 아버스노트는 1629년부터 1710년까지 82년간 런던의 출생 기록을 조사하여 매년 남성의 수가 여성의 수를 초과했음을 확인했다.[32][33][34][35] 남성 또는 여성 출생이 동일한 확률을 가진다고 가정할 때, 관찰된 결과가 나올 확률은 1/282(약 1/4,836,000,000,000,000,000,000,000)로 매우 낮았다. 아버스노트는 이를 근거로 이러한 현상이 우연이 아닌 신의 섭리에 의한 것이라고 결론지었다. 현대적 용어로 표현하면, 그는 ''p'' = 1/282 유의 수준에서 남녀 출생 확률이 동일하다는 귀무 가설을 기각한 것이다.

아버스노트의 연구는 "최초의 유의성 검정 사용",[36] 통계적 유의성에 대한 추론의 첫 번째 예시,[37] 그리고 비모수 검정 중 부호 검정의 최초 보고서[33]로 인정받고 있다.

이후 피에르-시몽 라플라스는 동일한 질문에 대해 연구하면서 이항 분포를 이용한 모수적 검정을 사용했다.[38] 라플라스는 1770년대에 약 50만 건의 출생 통계를 분석하여 여자아이보다 남자아이의 수가 더 많다는 것을 확인하고, ''p''-값을 계산하여 이 초과가 실제적이지만 설명되지 않은 효과라고 결론지었다.

6. 2. 피에르시몽 라플라스의 연구

피에르시몽 라플라스는 1770년대에 거의 50만 건의 출생 기록을 분석하여 여자아이보다 남자아이가 더 많이 태어난다는 것을 통계적으로 확인했다.[38] 그는 유의 확률(p-값)을 계산하여 이 초과 현상이 우연이 아니라 실제로 존재하는, 그러나 아직 설명되지 않은 어떤 요인에 의한 것이라고 결론지었다.

6. 3. 칼 피어슨과 카이제곱 검정

칼 피어슨은 피어슨의 카이제곱 검정에서 ''p''-값을 처음으로 공식적으로 도입했으며,[39] 카이제곱 분포를 사용하고 대문자 P로 표기했다.[39] 카이제곱 분포에 대한 ''p''-값(χ2 및 자유도의 다양한 값에 대해)은 에서 계산되었으며 에 수집되었다.

6. 4. 로널드 피셔와 유의 확률의 대중화

로널드 피셔는 통계에서 ''p''-값의 사용을 공식화하고 대중화하는 데 큰 영향을 미쳤다.[40][41] 특히, 그가 이 주제에 접근하는 데 있어 ''p''-값은 중심적인 역할을 수행했다.[42] 1925년에 출판된 그의 저서 ''연구자를 위한 통계적 방법''에서 피셔는 통계적 유의성의 한계로 ''p'' = 0.05 (우연에 의해 결과가 나올 확률이 1/20)를 제안했다. 그는 이 값을 정규 분포에 적용하여 통계적 유의성에 대한 두 표준 편차의 규칙을 도출했다. (양측 검정에서 정규 분포의 약 1.96 표준 편차에 해당하며, 2 표준 편차는 우연에 의해 초과될 확률이 약 1/22, 즉 ''p'' ≈ 0.045이다.)

피셔는 Elderton의 표와 유사하게 다양한 χ2 값(및 자유도 ''n'')에 대해 ''p''를 계산하는 대신, 지정된 ''p''-값 (0.99, 0.98, 0.95, 0.90, 0.80, 0.70, 0.50, 0.30, 0.20, 0.10, 0.05, 0.02, 0.01)을 생성하는 χ2 값을 계산하는 표를 제시했다. 이를 통해 계산된 χ2 값을 컷오프와 비교하여 ''p''-값을 사용하는 것을 권장했다. 이러한 접근 방식은 피셔와 예이츠의 1938년 저서에서도 더욱 확고해졌다.

피셔는 그의 저서 ''실험 설계''(1935)에서 차 맛 감별 실험을 통해 ''p''-값의 적용을 예시로 제시했다. 이 실험에서 그는 차를 준비하는 두 가지 방법(우유를 먼저 넣는 방법과 차를 먼저 넣는 방법)을 구별할 수 있다고 주장하는 여성(머리엘 브리스톨)의 능력을 평가했다. 여성에게 8잔의 차를 제시하고 각 컵의 준비 방법을 맞추도록 했을 때, 귀무 가설(여성에게 특별한 능력이 없음) 하에서 피셔의 정확 검정을 사용한 ''p''-값은 1/\binom{8}{4} = 1/70 \approx 0.014였다. 피셔는 이 결과를 바탕으로 귀무 가설을 기각할 수 있다고 판단했다. (실제 실험에서 여성은 8잔 모두 정확하게 분류했다.)

피셔는 ''p'' = 0.05를 유의 수준의 표준으로 사용하는 것이 일반적이고 편리하다고 언급하면서, 이 기준에 미치지 못하는 결과는 무시하고, 이를 통해 우연에 의한 변동을 제거할 수 있다고 설명했다. 그는 또한 ''p''-값의 해석이 귀무 가설이 참이라고 가정할 때 데이터만큼 극단적인 값의 장기적인 비율을 나타낸다는 점을 강조했다.

이후 피셔는 과학에서 통계적 추론을 위한 ''p''-값의 사용과 "수용 절차"라는 네이먼-피어슨 방법을 비교했다. 그는 고정된 유의 수준(5%, 2%, 1% 등)이 편리하지만, 정확한 ''p''-값을 사용하고 증거의 강도를 추가 실험을 통해 수정할 수 있다고 강조했다. 반면, 결정 절차는 명확한 결정을 요구하여 되돌릴 수 없는 조치를 초래하며, 오류 비용을 기반으로 하기 때문에 과학 연구에 적용할 수 없다고 주장했다.

7. 관련 개념

귀무가설을 가정했을 때 표본 이상으로 극단적인 결과를 얻을 확률을 유의 확률(p-값)이라고 한다. '더 극단적'이라는 것은 정의에 따라 달라지는데, 예를 들어 정규분포의 경우 왼쪽 꼬리 유의 확률(left-tail ''p''-value영어), 오른쪽 꼬리 유의 확률(right-tail ''p''-value영어), 양쪽 꼬리 유의 확률(double-tail ''p''-value영어) 등으로 정의할 수 있다. 확률 변수가 단순한 실수가 아닌 경우, 더 복잡한 '극단성'을 정의해야 한다. 예를 들어, 표본이 노름공간에 있는 경우, 노름함수를 사용하여 유의 확률을 정의할 수 있다.

이 외에도 p-값과 관련된 개념으로는 E-값, q-값, 방향의 확률, 2세대 p-값 등이 있다.

7. 1. E-값

''E-값''은 두 가지 개념을 지칭할 수 있으며, 둘 다 p-값과 관련이 있고 다중 검정에서 역할을 한다. 첫째, 이는 실험의 ''선택적 연속''을 처리할 수 있는 p-값에 대한 일반적이고 더 강력한 대안에 해당한다. 둘째, 이는 "기대값"을 줄여서 표시하는 데 사용되기도 하는데, 이는 귀무 가설이 참이라고 가정할 때 실제로 관찰된 것만큼 극단적인 검정 통계량을 얻을 것으로 예상되는 횟수의 기대 횟수를 의미한다.[43] 이 기대값은 검정 횟수와 ''p''-값의 곱이다.

7. 2. q-값

''q''-값은 양성 거짓 발견률과 관련하여 ''p''-값과 유사한 개념이다.[44] 이는 다중 가설 검정에서 거짓 양성률을 최소화하면서 통계적 검정력을 유지하는 데 사용된다.[45]

7. 3. 방향의 확률 (pd)

방향의 확률(''pd'')은 ''p''-값의 베이즈 수치적 등가물이다.[46] 이는 사후 분포에서 중앙값의 부호를 갖는 비율에 해당하며, 일반적으로 50%에서 100% 사이에서 변동하며, 효과가 긍정적인지 부정적인지에 대한 확실성을 나타낸다.

7. 4. 2세대 p-값

2세대 p-값은 극도로 작고 실질적으로 무관한 효과 크기를 유의미하다고 간주하지 않음으로써 p-값의 개념을 확장한다.[47]

참조

[1] 웹사이트 ASA House Style http://magazine.amst[...] American Statistical Association
[2] 웹사이트 Not Even Scientists Can Easily Explain P-values https://fivethirtyei[...] 2015-11-24
[3] 논문 The ASA's Statement on p-Values: Context, Process, and Purpose 2016-03-07
[4] 논문 Why ''P'' Values Are Not a Useful Measure of Evidence in Statistical Significance Testing
[5] 논문 A manifesto for reproducible science 2017-01
[6] 논문 The ASA Statement on p -Values: Context, Process, and Purpose 2016-04-02
[7] 논문 ASA President's Task Force Statement on Statistical Significance and Replicability Informa UK Limited 2021-10-02
[8] 서적 On the History of Statistics and Probability https://openlibrary.[...] Marcel Dekker Inc
[9] 논문 Statistical Methods for Research Workers https://doi.org/10.1[...] Springer 1992
[10] 논문 Redefine statistical significance http://doi.org/10.10[...] 2017-09-01
[11] 논문 The extent and consequences of p-hacking in science 2015-03
[12] 논문 "''p''-Curve and Effect Size: Correcting for Publication Bias Using Only Significant Results" 2014-11
[13] 논문 Median of the p value under the alternative hypothesis
[14] Submitted manuscript The behavior of the P-value when the alternative hypothesis is true https://zenodo.org/r[...] 1997-03
[15] 논문 Scientific method: statistical errors 2014-02
[16] 논문 An investigation of the false discovery rate and the misinterpretation of p-values 2014-11
[17] 논문 Alternatives to P value: confidence interval and effect size 2016-12
[18] 논문 Why the P-value culture is bad and confidence intervals a better alternative 2012-08
[19] 논문 Sifting the evidence. Likelihood ratios are alternatives to P values 2001-05
[20] 서적 The Nature of Scientific Evidence
[21] 웹사이트 Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science https://replicationi[...] 2015-04-30
[22] 논문 Hypothesis Testing: From p Values to Bayes Factors 2000-12
[23] 논문 A Test by Any Other Name: P Values, Bayes Factors, and Statistical Inference 2016-02-16
[24] 논문 In defense of P values https://zenodo.org/r[...] 2014-03
[25] 웹사이트 Statisticians Found One Thing They Can Agree On: It's Time To Stop Misusing P-Values https://fivethirtyei[...] 2016-03-07
[26] 논문 The earth is flat (''p'' > 0.05): significance thresholds and the crisis of unreplicable research
[27] 논문 Remove, rather than redefine, statistical significance 2018-01
[28] 논문 The reproducibility of research and the misinterpretation of ''p''-values 2017-12
[29] 논문 A Dirty Dozen: Twelve P-Value Misconceptions https://www.scienced[...] 2008-07-01
[30] 논문 A practical solution to the pervasive problems of p values http://link.springer[...] 2007-10
[31] 서적 The Descent of Human Sex Ratio at Birth https://archive.org/[...] Springer Science & Business Media
[32] 논문 An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes http://www.york.ac.u[...]
[33] 서적 Practical Nonparametric Statistics Wiley
[34] 서적 Applied Nonparametric Statistical Methods Chapman & Hall
[35] 서적 The History of Statistics: The Measurement of Uncertainty Before 1900 Harvard University Press
[36] 서적 Statisticians of the Centuries Springer
[37] 서적 A History of Mathematical Statistics from 1750 to 1930 Wiley
[38] 서적 The History of Statistics: The Measurement of Uncertainty Before 1900 Harvard University Press
[39] 논문 On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling http://www.economics[...]
[40] 논문 P Value and the Theory of Hypothesis Testing: An Explanation for New Researchers 2010
[41] 논문 P values and multivariate distributions: Non-orthogonal terms in regression models https://linkinghub.e[...] 2021
[42] 논문 Confusion Over Measures of Evidence (''p''′s) Versus Errors (α′s) in Classical Statistical Testing
[43] 웹사이트 Definition of E-value https://www.ncbi.nlm[...]
[44] 논문 The positive false discovery rate: a Bayesian interpretation and the q-value 2003
[45] 논문 Statistical significance for genomewide studies 2003-08
[46] 논문 Indices of Effect Existence and Significance in the Bayesian Framework 2019-12-10
[47] 문서 An Introduction to Second-Generation p-Values Jeffrey D. Blume, Robert A. Greevy, Valerie F. Welty, Jeffrey R. Smith &William D. Dupont https://www.tandfonl[...]
[48] 웹사이트 ASA House Style http://magazine.amst[...] American Statistical Association 2022-02-05
[49] 웹사이트 Not Even Scientists Can Easily Explain P-values https://fivethirtyei[...] 2015-11-24
[50] 논문 The ASA's Statement on p-Values: Context, Process, and Purpose 2016-03-07
[51] 논문 Why ''P'' Values Are Not a Useful Measure of Evidence in Statistical Significance Testing
[52] 논문 A manifesto for reproducible science 2017-01
[53] 논문 The ASA Statement on p -Values: Context, Process, and Purpose 2016-04-02
[54] 논문 ASA President's Task Force Statement on Statistical Significance and Replicability Informa UK Limited 2021-10-02
[55] 서적 On the History of Statistics and Probability https://openlibrary.[...] Marcel Dekker Inc
[56] 논문 Redefine statistical significance 2017-09-01
[57] 논문 The extent and consequences of p-hacking in science 2015-03
[58] 논문 ''p''-Curve and Effect Size: Correcting for Publication Bias Using Only Significant Results 2014-11
[59] 논문 Median of the p value under the alternative hypothesis
[60] 논문 The behavior of the P-value when the alternative hypothesis is true https://zenodo.org/r[...] 1997-03
[61] 논문 Scientific method: statistical errors 2014-02
[62] 논문 An investigation of the false discovery rate and the misinterpretation of p-values 2014-11
[63] 논문 Alternatives to P value: confidence interval and effect size 2016-12
[64] 논문 Why the P-value culture is bad and confidence intervals a better alternative 2012-08
[65] 논문 Sifting the evidence. Likelihood ratios are alternatives to P values 2001-05
[66] 서적 The Nature of Scientific Evidence
[67] 웹사이트 Replacing p-values with Bayes-Factors: A Miracle Cure for the Replicability Crisis in Psychological Science https://replicationi[...] 2017-03-07
[68] 논문 Hypothesis Testing: From p Values to Bayes Factors 2000-12
[69] 논문 A Test by Any Other Name: P Values, Bayes Factors, and Statistical Inference 2016-02-16
[70] 논문 In defense of P values https://zenodo.org/r[...] 2014-03
[71] 웹사이트 Statisticians Found One Thing They Can Agree On: It's Time To Stop Misusing P-Values https://fivethirtyei[...] 2016-03-07
[72] 논문 The earth is flat (''p'' > 0.05): significance thresholds and the crisis of unreplicable research
[73] 논문 Remove, rather than redefine, statistical significance 2018-01
[74] 논문 The reproducibility of research and the misinterpretation of ''p''-values 2017-12
[75] 서적 The Descent of Human Sex Ratio at Birth https://archive.org/[...] Springer Science & Business Media
[76] 논문 An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes http://www.york.ac.u[...]
[77] 서적 Practical Nonparametric Statistics Wiley
[78] 서적 Applied Nonparametric Statistical Methods Chapman & Hall
[79] 서적 The History of Statistics: The Measurement of Uncertainty Before 1900 Harvard University Press
[80] 서적 Statisticians of the Centuries Springer
[81] 서적 A History of Mathematical Statistics from 1750 to 1930 Wiley
[82] 서적 The History of Statistics: The Measurement of Uncertainty Before 1900 Harvard University Press
[83] 논문 On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling http://www.economics[...]
[84] 논문 P Value and the Theory of Hypothesis Testing: An Explanation for New Researchers 2010
[85] 논문 P values and multivariate distributions: Non-orthogonal terms in regression models https://linkinghub.e[...] 2021
[86] 간행물 Confusion Over Measures of Evidence (''p''′s) Versus Errors (α′s) in Classical Statistical Testing
[87] 웹사이트 Definition of E-value https://www.ncbi.nlm[...] 2010-05-17
[88] 논문 The positive false discovery rate: a Bayesian interpretation and the q-value 2003
[89] 논문 Statistical significance for genomewide studies 2003-08
[90] 논문 Indices of Effect Existence and Significance in the Bayesian Framework 2019-12-10
[91] 문서 An Introduction to Second-Generation p-Values https://www.tandfonl[...]
[92] 웹인용 Not Even Scientists Can Easily Explain P-values https://fivethirtyei[...] 2015-11-24
[93] 논문 The ASA's Statement on p-Values: Context, Process, and Purpose 2016-03-07
[94] 논문 The ASA's Statement on p-Values: Context, Process, and Purpose http://amstat.tandfo[...]
[95] 논문 Why ''P'' Values Are Not a Useful Measure of Evidence in Statistical Significance Testing
[96] 논문 A manifesto for reproducible science 2017-01
[97] 문서 Redefine Statistical Significance https://psyarxiv.com[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com