영 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

영 분포는 가설 검정에서 검정 통계량의 결합 분포를 형성하기 위해 사용되는 개념이다. 실제 분포가 알려져 있지 않을 때, 데이터를 나타내기 위해 적절한 영 분포를 사용하며, 가우시안 분포, t 통계량, F 통계량 등이 사용될 수 있다. 영 분포는 데이터 재표본 추출, 영 분포 생성 데이터 추정을 통해 얻을 수 있으며, 부적절한 선택은 검정 결과에 영향을 미칠 수 있다. 대규모 표본에서는 경험적 영 분포를 구현할 수 있으며, 순열 방법이 다중 검정에서 사용되기도 한다. 영 분포는 과학 연구에서 두 그룹 간의 차이 유무를 검정하는 데 활용될 수 있다.

영 분포

확률 분포

정의

설명	귀무 가설이 참이라는 가정 하에 검정 통계량의 확률 분포
관련 개념	가설 검정 귀무 가설 검정 통계량 p-값

활용

설명	귀무 가설의 기각 여부 결정 p-값 계산 유의 수준 설정

특징

설명	검정 통계량의 종류에 따라 다양한 형태를 가짐 귀무 가설의 구체적인 내용에 따라 달라짐 검정력 분석에 사용될 수 있음

📚 더 읽어볼만한 페이지

통계적 추론 - 과적합
과적합은 통계 모델이나 기계 학습 알고리즘이 훈련 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상이다.
통계적 추론 - 비모수 통계
비모수 통계는 자료의 분포에 대한 가정을 최소화하며, 명목척도나 서열척도 자료, 또는 표본 수가 적은 경우에 사용되는 통계 방법이다.
가설 검정 - 귀무 가설
귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다.
가설 검정 - 유의 확률
유의 확률은 통계적 가설 검정에서 귀무 가설이 참일 때 관측된 결과의 극단성을 나타내는 확률값으로, 귀무 가설 기각 여부를 판단하는 기준이 되지만 오용될 수 있어 다른 통계적 추론 방법이 대안으로 제시된다.
통계학 용어 - 퍼센트 포인트
퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다.
통계학 용어 - 편차
편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.

1. 개요
2. 귀무 분포의 개념
3. 귀무 분포의 획득
4. 대표본에서의 귀무 분포
5. 귀무 분포의 응용 사례

2. 귀무 분포의 개념

가설 검정 절차에서 검정을 수행하고 제1종 오류를 제어하기 위해 검정 통계량의 결합 분포를 형성해야 한다. 그러나 실제 분포는 종종 알려져 있지 않으며 데이터를 나타내기 위해 적절한 영 분포를 사용해야 한다. 예를 들어, 평균에 대한 일표본 및 이표본 검정은 가우시안 영 분포를 갖는 t 통계량을 사용할 수 있으며, 모집단 평균의 k 그룹을 검정하는 F 통계량은 가우시안 2차 형식을 영 분포로 갖는다. 영 분포는 주변 영 분포를 기반으로 영 분위수 변환 검정 통계량의 점근 분포로 정의된다. 실제로는 영 분포의 검정 통계량이 종종 알려져 있지 않다. 이는 알려지지 않은 데이터 생성 분포에 의존하기 때문이다. 부트스트랩과 같은 재표본 추출 절차는 영 분포에 대한 일관된 추정치를 제공할 수 있다. 영 분포를 부적절하게 선택하면 검정 과정에서 제1종 오류와 검정력 특성에 상당한 영향을 미친다. 검정 통계량 영 분포를 얻는 또 다른 방법은 영 분포 생성 데이터 추정을 사용하는 것이다.

3. 귀무 분포의 획득

가설 검정 절차에서 검정을 수행하고 제1종 오류를 제어하기 위해 검정 통계량의 결합 분포를 형성해야 한다. 그러나 실제 분포는 종종 알려져 있지 않으며, 데이터를 나타내기 위해 적절한 영 분포를 사용해야 한다. 예를 들어, 평균에 대한 일표본 및 이표본 검정은 가우시안 영 분포를 갖는 t 통계량을 사용할 수 있으며, 모집단 평균의 k 그룹을 검정하는 F 통계량은 가우시안 2차 형식을 영 분포로 갖는다. 영 분포는 주변 영 분포를 기반으로 영 분위수 변환 검정 통계량의 점근 분포로 정의된다.

실제로는 영 분포의 검정 통계량이 종종 알려져 있지 않다. 이는 알려지지 않은 데이터 생성 분포에 의존하기 때문이다. 비모수적 방법이나 모델 기반의 부트스트랩과 같은 재표본 추출 절차는 영 분포에 대한 일관된 추정치를 제공할 수 있다. 영 분포를 부적절하게 선택하면 검정 과정에서 제1종 오류와 검정력 특성에 상당한 영향을 미친다. 검정 통계량 영 분포를 얻는 또 다른 방법은 영 분포 생성 데이터 추정을 사용하는 것이다.

4. 대표본에서의 귀무 분포

큰 표본 크기는 더 현실적인 경험적 귀무 분포를 구현할 수 있게 해준다. MLE 적합 알고리즘을 사용하여 경험적 귀무값을 생성할 수 있다. 베이즈주의적 틀에서 대규모 연구를 통해 귀무 분포는 비귀무 대응물과 함께 확률적 맥락에 놓일 수 있다. 표본 크기 n이 10,000 이상과 같이 큰 경우, 경험적 귀무값은 연구 자체의 데이터를 활용하여 적절한 귀무 분포를 추정한다. 중요한 가정은 귀무 사례의 큰 비율(> 0.9)로 인해 데이터가 귀무 분포 자체를 보여줄 수 있다는 것이다. 이론적 귀무값은 일부 경우에 실패할 수 있으며, 이는 완전히 틀린 것은 아니지만 그에 따라 조정이 필요하다. 대규모 데이터 세트에서는 독립적이고 동일하게 분포된(i.i.d.) 샘플과 같은 이상적인 수학적 틀에서 데이터의 편차를 쉽게 찾을 수 있다. 또한, 샘플링 단위 간의 상관 관계 및 관찰되지 않은 공변량은 잘못된 이론적 귀무 분포로 이어질 수 있다. 순열 방법은 다중 검정에서 데이터에서 생성된 경험적 귀무 분포를 얻기 위해 자주 사용된다. 경험적 귀무 방법은 에프론의 논문에서 중심 일치 알고리즘과 함께 소개되었다.

순열 방법을 사용할 때 몇 가지 사항을 고려해야 한다. 순열 방법은 상관된 샘플링 단위에 적합하지 않다. 순열의 샘플링 프로세스는 독립성을 암시하고 i.i.d. 가정을 필요로 하기 때문이다. 또한, 문헌에 따르면 순열 분포는 n이 커짐에 따라 N(0,1)로 빠르게 수렴한다. 어떤 경우에는 순열 기술과 경험적 방법을 결합하여 경험적 알고리즘에서 N(0,1)을 순열 귀무값으로 대체할 수 있다.

5. 귀무 분포의 응용 사례

귀무 가설은 종종 실험의 일부로 사용된다. 귀무 가설은 두 데이터 집합 간에, 또는 한 가지 일을 하는 것과 다른 일을 하는 것 사이에 통계적 차이가 없음을 보이려고 한다. 예를 들어, 과학자는 하루에 약 3.22km 걷는 사람들이 약 3.22km 미만으로 걷는 사람들보다 심장이 더 건강하다는 것을 증명하려고 할 수 있다. 과학자는 귀무 가설을 사용하여 하루에 약 3.22km 걷는 사람들의 심장 건강과 약 3.22km 미만으로 걷는 사람들의 심장 건강을 비교하여 테스트할 것이다. 만약 그들의 심박수에 차이가 없다면, 과학자는 검정 통계량이 귀무 분포를 따른다고 말할 수 있을 것이다. 그러면 과학자들은 유의미한 차이가 있다면 그 검정이 대립 분포를 따른다는 것을 결정할 수 있다.