수리통계학
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
수리통계학은 집단의 특성을 파악하기 위해 수학적 방법을 활용하는 학문이다. 초기에는 기술 통계학적 방법이 주로 사용되었으나, 이후 확률 모델을 적용하여 가설 검정 및 모수 추정을 하는 추론 통계학이 발전했다. 가우스, 라플라스 등 수학자들은 확률 분포와 손실 함수를 이용한 의사 결정 이론을 발전시켰으며, 현대 수리통계학은 과학적 계산, 해석학, 최적화 등 다양한 수학 분야를 활용한다. 수리통계학은 기술 통계학과 추론 통계학으로 구분되며, 통계적 추론은 데이터로부터 결론을 도출하는 과정을 의미한다. 통계적 가설은 모수를 사용하여 특정한 주장을 나타내며, 귀무가설과 대립가설로 구성된다. 확률 분포는 실험 결과에 확률을 할당하는 함수이며, 일변량 및 다변량 분포로 나뉜다. 회귀 분석은 변수 간의 관계를 추정하는 통계적 과정이며, 선형 회귀와 비모수 회귀 등 다양한 기법이 존재한다. 비모수 통계학은 모수화된 확률 분포에 기반하지 않는 방법으로 데이터를 분석하며, 가정을 덜 하여 강건성이 높지만 검정력은 상대적으로 낮다.
더 읽어볼만한 페이지
- 보험계리학 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다. - 보험계리학 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
수리통계학 | |
---|---|
일반 정보 | |
분야 | 수학과 통계학의 한 분야 |
연구 대상 | 통계적 방법의 수학적 기초 |
관련 분야 | 확률론 해석학 선형대수학 최적화 정보 이론 |
주요 내용 | |
주요 내용 | 추정 이론 가설 검정 분산 분석 회귀 분석 범주형 자료 분석 비모수 통계 시계열 분석 다변량 분석 |
역사 | |
발전 | 20세기 초 |
주요 인물 | 로널드 피셔 제르지 네이만 에곤 피어슨 아브라함 발트 |
활용 | |
활용 분야 | 경제학 공학 의학 생물학 사회과학 데이터 과학 |
2. 수리통계학의 발전과 변화
수리통계학은 초기에 집단의 특성을 파악하기 위해 평균, 분산 등 기술 통계적 방법을 주로 사용하였다.[18] 이후 확률 모델을 기반으로 한 추론 통계학으로 발전하였다.[18]
가우스, 라플라스, C. S. 퍼스 등은 확률 분포와 손실 함수(또는 효용 함수)를 이용한 의사 결정 이론을 발전시켰으며[11][12][13][14][15][16][17], 이는 아브라함 월드 등에 의해 현대적으로 재정립되었다.[11][12][13][14][15][16][17]
현대에는 과학적 계산, 해석학, 최적화, 대수학, 조합론 등 다양한 수학 분야가 수리통계학 연구에 활용되고 있다.
2. 1. 기술 통계학과 추론 통계학
통계학에서 데이터를 분석하는 방법은 크게 기술 통계학과 추론 통계학으로 나뉜다.[18]- 기술 통계학 - 데이터를 설명하는 통계학의 일부로서, 데이터와 데이터의 전형적인 속성을 요약한다. 즉, 데이터 집합의 특징을 설명하고 요약하는 데 사용되며, 평균, 분산, 상관 계수 등을 활용하여 데이터의 중심 경향, 변동성, 변수 간의 관계 등을 파악한다.
- 추론 통계학 - 데이터에서 결론을 도출하는 통계학의 일부로서, 확률 모델을 사용하여 모집단에 대한 추론을 수행한다. 예를 들어, 데이터에 대한 모델을 선택하고, 데이터가 특정 모델의 조건을 충족하는지 확인하며, 관련된 불확실성을 정량화하는 것 (신뢰 구간 사용)을 포함한다. 즉, 표본 데이터를 기반으로 모집단의 특성에 대한 가설을 검정하거나, 모수를 추정하는 데 사용된다.
수리 통계학은 이러한 데이터 분석 도구를 제공하며, 특히 무작위 실험 설계나 무작위 표본 추출을 사용한 설문 조사 계획과 같은 통계적 데이터 수집 방법에 대한 연구와 관련이 있다. 데이터 분석은 초기 분석과 2차 분석으로 나눌 수 있는데, 초기 분석은 연구 프로토콜에 따라 수행되며, 2차 분석은 초기 결과에서 영감을 얻어 새로운 가설을 제안하거나 추가 연구를 계획하는 데 활용된다.
3. 통계적 추론
통계적 추론은 관찰 오류나 표본 추출 변동과 같이 무작위 변동의 영향을 받는 데이터로부터 결론을 도출하는 과정이다.[8] 추론 통계는 표본 데이터를 사용하여 모집단에 대한 가설을 검정하고 모수를 추정한다. 이는 표본을 설명하는 기술 통계와 대조적으로, 추론 통계는 표본을 통해 더 큰 모집단에 대한 예측을 이끌어낸다.
통계적 추론의 결과는 추가 실험이나 설문 조사를 결정하거나, 정책 결정 전에 결론을 도출하는 데 사용될 수 있다.
3. 1. 통계적 가설
통계적 가설은 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭한다. 예를 들어, '미국 성인 여성의 신장은 크다'는 통계적 가설이 될 수 없다. 하지만 '미국 성인 여성의 평균 신장은 180cm이다.'는 통계적 가설이 될 수 있다. 평균 신장은 여기서 모집단 특성을 나타내는 모수의 역할을 수행한다. 통계적 가설은 귀무가설과 이와 반대에 있는 대립가설로 나타낸다.[19][18]4. 확률 분포
확률 분포는 무작위 실험, 설문 조사, 또는 통계적 추론 절차의 가능한 결과에 확률을 할당하는 함수이다. 표본 공간이 비수치적인 실험(이 경우 분포는 범주형 분포가 됨), 이산 확률 변수로 인코딩된 표본 공간을 가진 실험(이 경우 분포는 확률 질량 함수로 지정될 수 있음), 그리고 연속 확률 변수로 인코딩된 표본 공간을 가진 실험(이 경우 분포는 확률 밀도 함수로 지정될 수 있음) 등에서 찾아볼 수 있다. 연속 시간에 정의된 확률 과정과 관련된 것과 같은 더 복잡한 실험은 더 일반적인 확률 측도를 사용해야 할 수 있다.
확률 분포는 일변량 분포 또는 다변량 분포일 수 있다. 일변량 분포는 단일 확률 변수가 다양한 대체 값을 가질 확률을 제공하고, 다변량 분포(결합 확률 분포)는 둘 이상의 확률 변수의 집합인 확률 벡터가 다양한 값의 조합을 가질 확률을 제공한다. 이항 분포, 초기하 분포, 정규 분포는 중요하고 일반적으로 사용되는 일변량 확률 분포이며, 다변량 정규 분포는 일반적으로 사용되는 다변량 분포이다.[18]
4. 1. 주요 확률 분포
- 정규 분포: 가장 일반적인 연속형 분포이다.[18]
- 베르누이 분포: 단일 베르누이 시행(예: 성공/실패, 예/아니오)의 결과이다.[18]
- 이항 분포: 고정된 총 독립 발생 횟수에서 "긍정적 발생"(예: 성공, 찬성표 등) 횟수이다.[18]
- 음이항 분포: 이항 분포와 유사하지만, 관심 대상이 주어진 성공 횟수에 도달하기 전의 실패 횟수인 경우이다.[18]
- 기하 분포: 이항 분포와 유사하지만, 관심 대상이 첫 번째 성공 전의 실패 횟수인 경우이다. 성공 횟수가 1인 음이항 분포의 특수한 경우이다.[18]
- 이산 균등 분포: 유한한 값의 집합 (예: 공정한 주사위의 결과)이다.[18]
- 연속 균등 분포: 연속적으로 분포된 값이다.[18]
- 푸아송 분포: 주어진 시간 동안 푸아송 유형의 사건 발생 횟수이다.[18]
- 지수 분포: 다음 푸아송 유형의 사건이 발생하기까지의 시간이다.[18]
- 감마 분포: 다음 k개의 푸아송 유형의 사건이 발생하기까지의 시간이다.[18]
- 카이제곱 분포: 제곱된 표준 정규 변수의 합의 분포이다. 예를 들어 정규 분포 표본의 표본 분산에 대한 추론에 유용하다(카이제곱 검정 참조).[18]
- 스튜던트 t 분포: 표준 정규 변수와 스케일링된 카이제곱 분포 변수의 제곱근의 비율의 분포이다. 분산을 알 수 없는 정규 분포 표본의 평균에 대한 추론에 유용하다(스튜던트 t-검정 참조).[18]
- 베타 분포: 단일 확률 (0과 1 사이의 실수)이다. 베르누이 분포 및 이항 분포에 켤레 분포이다.[18]
5. 회귀 분석
통계학에서, '''회귀 분석'''은 변수 간의 관계를 추정하기 위한 통계적 과정이다. 이는 여러 변수를 모델링하고 분석하는 다양한 방법을 포함하며, 종속 변수와 하나 이상의 독립 변수 간의 관계에 초점을 맞춘다. 더 구체적으로, 회귀 분석은 다른 독립 변수를 고정시킨 상태에서 독립 변수 중 하나가 변경될 때 종속 변수(또는 '기준 변수')의 일반적인 값이 어떻게 변하는지 이해하는 데 도움이 된다. 가장 일반적으로, 회귀 분석은 독립 변수가 주어졌을 때 종속 변수의 조건부 기대값을 추정한다. 즉, 독립 변수가 고정되었을 때 종속 변수의 평균값이다. 덜 일반적으로, 초점은 독립 변수가 주어졌을 때 종속 변수의 조건부 분포의 분위수 또는 다른 위치 모수에 맞춰진다. 모든 경우에서, 추정 대상은 '''회귀 함수'''라고 하는 독립 변수의 함수이다. 회귀 분석에서는, 회귀 함수를 중심으로 종속 변수의 변동을 특징짓는 것도 흥미로운데, 이는 확률 분포로 설명될 수 있다.
회귀 분석을 수행하기 위한 많은 기법이 개발되었다. 선형 회귀와 같은 친숙한 방법은 모수적인데, 회귀 함수가 데이터로부터 추정되는 유한한 수의 알려지지 않은 모수로 정의되기 때문이다(예: 최소제곱법 사용). 비모수 회귀는 회귀 함수가 지정된 함수 집합에 속하도록 허용하는 기술을 말하며, 이는 차원이 무한할 수 있다.
6. 비모수 통계학
'''비모수 통계학'''은 모수화된 확률 분포에 기반하지 않는 방식으로 데이터로부터 계산된 값이다. 여기에는 기술 통계와 추론 통계가 모두 포함된다. 전형적인 모수는 기대값, 분산 등이다. 모수 통계학과 달리 비모수 통계학은 평가 대상 변수의 확률 분포에 대해 어떠한 가정도 하지 않는다.[9]
비모수적 방법은 순위가 매겨진 형태(예: 별점 1개에서 4개까지의 영화 리뷰)를 갖는 모집단을 연구하는 데 널리 사용된다. 데이터가 순위를 갖지만 명확한 숫자적 해석이 없는 경우(예: 선호도 평가 시) 비모수적 방법을 사용할 필요가 있을 수 있다. 측정 수준 측면에서 비모수적 방법은 "서열" 데이터를 생성한다.
비모수적 방법은 가정을 덜 하기 때문에 해당 모수적 방법보다 적용 범위가 훨씬 더 넓다. 특히, 문제에 대해 알려진 정보가 적은 상황에 적용될 수 있다. 또한 가정을 덜 하기 때문에 비모수적 방법은 더 강건하다.
비모수적 방법의 한 가지 단점은 가정을 하지 않기 때문에 일반적으로 해당 모수적 방법보다 검정력이 낮다는 것이다.[10] 검정력이 낮은 비모수적 검정은 이러한 방법의 일반적인 사용이 표본 크기가 작은 경우이기 때문에 문제가 된다.[10] 많은 모수적 방법은 네이만-피어슨 보조정리 및 우도비 검정과 같은 방법을 통해 가장 강력한 검정으로 입증되었다.
비모수적 방법을 사용하는 또 다른 정당성은 단순성이다. 어떤 경우에는 모수적 방법을 사용하는 것이 정당화되더라도 비모수적 방법이 사용하기 더 쉬울 수 있다. 이러한 단순성과 더 큰 강건성으로 인해 일부 통계학자들은 비모수적 방법이 부적절한 사용과 오해의 여지를 줄인다고 생각한다.
7. 통계적 데이터 수집
통계적 데이터 수집은 연구 계획, 특히 무작위 실험 설계와 무작위 표본 추출을 사용한 설문 조사 계획과 관련이 있다. 데이터의 초기 분석은 종종 연구가 수행되기 전에 명시된 연구 프로토콜을 따른다. 연구에서 얻은 데이터는 초기 결과에서 영감을 얻은 2차 가설을 고려하거나 새로운 연구를 제안하기 위해 분석할 수도 있다.
데이터 분석은 다음과 같이 나뉜다.
- 기술 통계학 - 데이터를 설명하는 통계학의 일부, 즉 데이터와 데이터의 전형적인 속성을 요약한다.
- 추론 통계학 - 데이터에서 결론을 도출하는 통계학의 일부 (데이터에 대한 일부 모델 사용): 예를 들어, 추론 통계학은 데이터에 대한 모델을 선택하고, 데이터가 특정 모델의 조건을 충족하는지 확인하며, 관련된 불확실성을 정량화하는 것 (예: 신뢰 구간 사용)을 포함한다.
데이터 분석 도구는 무작위 연구의 데이터에서 가장 잘 작동하지만 다른 종류의 데이터에도 적용된다. 예를 들어, 자연 실험 및 관찰 연구에서 통계학자가 선택한 모델에 따라 추론이 달라지므로 주관적이다.
참조
[1]
서적
Mathematical Statistics
https://books.google[...]
Springer Science & Business Media
2008-02-03
[2]
서적
Handbook of stochastic analysis and applications
M. Dekker
2002
[3]
서적
Theory of statistics
Springer
1995
[4]
서적
Statistical Models: Theory and Practice
Cambridge University Press
2005
[5]
서적
Statistical Models and Causal Inference: A Dialogue with the Social Sciences
http://www.cambridge[...]
Cambridge University Press
2010
[6]
서적
"Intro to Mathematical Statistics."
2005
[7]
서적
"An Introduction to Mathematical Statistics and Its Applications"
Prentice Hall
2012
[8]
서적
Oxford Dictionary of Statistics
OUP
2008
[9]
웹사이트
Research Nonparametric Methods
https://d8.stat.cmu.[...]
2022-08-30
[10]
웹사이트
Nonparametric Tests
https://sphweb.bumc.[...]
2022-08-31
[11]
서적
Sequential analysis
John Wiley and Sons
1947
[12]
서적
Statistical Decision Functions
John Wiley and Sons, New York
1950
[13]
서적
Testing Statistical Hypotheses
1997
[14]
서적
Theory of Point Estimation
1998
[15]
서적
Mathematical Statistics: Basic and Selected Topics
Pearson Prentice-Hall
2001
[16]
서적
Asymptotic Methods in Statistical Decision Theory
Springer-Verlag
1986
[17]
서적
Statistical Decision Theory: Estimation, Testing, and Selection
Springer
2008
[18]
뉴스
인간적인 통계지표 위한 ‘주관의 객관화’
http://www.sisaweek.[...]
시사위크
2017-12-14
[19]
문서
상계서 p,370
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com