맨위로가기

통계학

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

통계학은 불확실한 상황에서 데이터를 수집, 분석, 해석, 제시 및 조직하는 데 사용되는 수학의 한 분야이다. '국가'를 의미하는 이탈리아어 'statista'에서 유래하여 국가의 인력, 재력 등 국가적 자료를 비교 검토하는 학문을 의미하게 되었다. 통계학은 기술 통계학과 추론 통계학으로 분류되며, 데이터의 특징을 요약하는 기술 통계와 표본에서 모집단을 추정하는 추론 통계로 나뉜다. 19세기 후반부터 20세기 초에 걸쳐 현대 통계학의 기초가 확립되었으며, 컴퓨터의 발전과 빅데이터 시대를 거치면서 다양한 분야에서 활용되고 있다. 그러나 통계 데이터의 수집, 해석, 그리고 오용에 대한 윤리적 문제와 비판도 존재한다.

더 읽어볼만한 페이지

  • 형식과학 - 컴퓨터 과학
    컴퓨터 과학은 컴퓨터와 관련된 현상을 연구하는 학문으로, 계산 이론, 하드웨어 및 소프트웨어 설계, 문제 해결 등을 포괄하며, 수학, 공학 등 여러 분야와 융합하여 발전해 왔다.
  • 형식과학 - 게임 이론
    게임 이론은 참여자들의 전략적 상호작용을 수학적으로 분석하는 모델로, 20세기 중반 폰 노이만과 모르겐슈테른의 연구로 학문 분야가 되었으며 내시 균형 등의 발전을 거쳐 다양한 분야에 응용되고 여러 학자들이 노벨 경제학상을 수상했다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
통계학
통계학
학문 분야수학, 확률론, 통계, 데이터 과학, 컴퓨터 과학
연구 대상데이터의 수집, 분석, 해석, 표현 및 조직
주요 목표데이터로부터 의미 있는 결론 도출 및 불확실성 하에서 의사 결정 지원
활용 분야자연과학
사회과학
공학
경제학
의학
경영학
마케팅
여론조사
스포츠
심리학
인공지능
기계학습
금융
보험
정치
법률
제약
제조업
주요 개념확률 분포
평균
분산
표준편차
상관관계
회귀분석
가설검정
신뢰구간
데이터 시각화
표본 추출
관련 학문수학
확률론
데이터 과학
정보 이론
계산 통계학
계량 경제학
심리 통계학
사회 통계학
생물 통계학
역사기원: 17세기 인구 통계 및 도박 연구
발전: 19세기 후반 프랜시스 골턴칼 피어슨의 생물 통계학 및 추론 통계학 발전
현대: 컴퓨터 기술 발달과 함께 데이터 과학의 핵심 분야로 성장
핵심 기술기술 통계
추론 통계
베이즈 통계
비모수 통계
다변량 분석
시계열 분석
머신러닝
분류
기술 통계데이터 요약 및 시각화 (예: 평균, 표준편차, 히스토그램)
추론 통계표본 데이터를 기반으로 모집단에 대한 결론 도출 (예: 가설 검정, 신뢰 구간)
응용 통계특정 분야의 문제 해결에 통계적 방법 적용 (예: 경제 통계, 생물 통계)
중요한 통계학자
주요 인물로널드 피셔
칼 피어슨
프랜시스 골턴
제르지 네이만
에건 피어슨
조지 박스
존 튜키
브래들리 에프론
관련 항목
관련 항목통계 분포
중심 극한 정리
최대 가능도 추정
베이즈 정리
데이터 시각화
통계 소프트웨어
활용 예시
그리코 놀이 및 도박확률 및 기대값을 분석하여 최적의 전략 결정
여론 조사표본 데이터 분석을 통해 전체 인구의 의견 예측
의학 연구임상 시험 데이터 분석을 통해 약물 효과 평가
마케팅소비자 행동 분석을 통해 효과적인 마케팅 전략 수립
스포츠경기 데이터 분석을 통해 선수 성적 평가 및 전략 수립

2. 역사

통계학은 관찰과 조사를 통해 얻은 데이터를 바탕으로, 응용 수학 기법을 이용하여 수치상의 성질, 규칙성, 불규칙성을 찾아내는 학문이다. 실험 계획, 데이터 요약 및 해석에 근거를 제공하며, 폭넓은 분야에서 응용되어 실생활에 적용되고 있다.[130] 통계학은 실증적인 뿌리를 가지고 있으며 실질적 활용에 초점을 맞추고 있어, 흔히 순수수학과는 구분되는 응용수학의 일종으로 여겨진다. 통계학의 방법을 통해 실제 수치를 왜곡하여 해석하는 것을 막고, 연구를 바탕으로 합리적인 의사결정을 할 수 있다.[131][132]

통계학은 과학, 산업, 사회 문제에 적용되며, 모집단을 연구하는 과정이 우선시된다. 모집단은 "한 나라 안에 사는 모든 사람" 또는 "크리스탈을 구성하는 모든 원자"와 같이 일정한 특성을 지닌 집단이면 어느 것이든 가능하다. 통계학자들은 전체 인구(인구 조사를 하는 기업)에 대한 데이터를 편집하며, 이는 정부의 통계 관련 법률 요약집 같은 조직화된 방법으로 수행될 수 있다. 기술 통계는 모집단의 데이터를 요약하는 데 사용된다. 도수 및 비율은 범주형 데이터를 설명하는 데 유용하며, 연속 데이터에 대해서는 평균표준 편차를 포함하는 수치 기술자가 사용된다. 데이터 분석 방법은 방대한 자료가 연구되는 현대 사회에서 경제 지표 연구, 마케팅, 여론 조사, 농업, 생명 과학, 의료 임상 연구 등 다양한 분야에서 응용되고 있다.

8세기에서 13세기 사이 이슬람 황금기의 수학자들과 암호학자들은 추론에 대한 공식적인 논의를 시작했다. 알-칼릴(717~786)은 순열조합을 최초로 사용한 것 중 하나를 포함하는 『암호 메시지의 책』을 저술했다.[12] 알킨디의 『암호 메시지 해독에 관한 원고』는 암호화된 메시지를 해독하기 위해 빈도 분석을 사용하는 방법을 자세히 설명하여 복호화를 위한 초기 통계적 추론의 예를 제공했다. 이븐 아들란(1187~1268)은 빈도 분석에서 표본 크기 사용에 중요한 공헌을 했다.[12]

통계학의 기원은 국가 또는 사회 전체의 인구 또는 경제에 관한 조사에 있으며, 이는 동서양을 막론하고 고대부터 행해져 왔다. 학문으로서는 17세기에 영국에서 윌리엄 페티의 『정치산술』(1790년) 등이 저술되어 사회통계학으로 이어지는 흐름이 시작되었다. 페티는 통계학의 아버지라고도 불린다.[130] 동시기에 페티의 친구인 John Graunt|존 그랜트영어가 『사망표에 관한 자연적 및 정치적 여러 관찰』(1662년)을 발표하여 인구통계학의 기원이 되었다.[15] 18세기에는 독일의 요한 페터 쥐스밀히가 『신의 질서』(1741년)에서 인구 동태에 보이는 규칙성을 명확히 하였다.

독일에서는 17세기부터 헤르만 콘링 등에 의해 유럽 각국의 국상 비교 연구가 성행하여, 1749년에 고트프리트 아헨발이 Statistik|슈타티슈티크de(통계학)이라는 이름을 붙였다. 19세기 초에는 정치 산술적인 데이터 수집과 분석이 중시되어, Statistik|슈타티슈티크de는 "통계학"의 의미로 사용되기 시작했다. 이 무렵 스웨덴(1748년)을 시작으로 인구 조사가 실시되기 시작하여, 미국(1790년), 영국, 프랑스 등 서유럽 여러 국가에서도 1830년경까지 인구 조사가 실시되었다.

한편 블레즈 파스칼, 피에르 드 페르마에 시작된 확률론 연구가 프랑스를 중심으로 진행되어, 19세기 초에는 피에르-시몽 라플라스에 의해 완성을 보았다.[16] 칼 프리드리히 가우스에 의한 오차정규 분포에 관한 연구도 통계학 발전의 기초가 되었다.[18] 아돌프 케틀레는 『인간에 관하여』(1835년), 『사회 물리학』(1869년) 등을 저술하여, 인간 행동이 사회 전체에서 평균하면 법칙에 따른다고 생각했다.[130] 케틀레의 업적을 계기로, 19세기 중반 이후 '''사회 통계학'''이 독일을 중심으로 발전한다. 대표적인 인물에는 아돌프 바그너, 에른스트 엔겔(엔겔 계수로 유명), 게오르크 폰 마이어가 있다. 플로렌스 나이팅게일도 사회 의학에 통계학을 응용한 최초의 인물로 알려져 있으며, 1858년 왕립 통계 학회 최초의 여성 회원이 되었다.[82]

19세기 중반 찰스 다윈의 진화론이 발표되고, 프랜시스 골턴은 양적인 측면에서 생물 진화 연구를 시작했다. 골턴은 평균으로의 회귀를 발견했으며, 칼 피어슨은 생물 통계학을 수학적으로 발전시켜('''수리 통계학''') 19세기 말부터 20세기에 걸쳐 '''기술 통계학'''을 대성한다.[84]

20세기에 들어서면 윌리엄 고셋, 로널드 피셔농학의 실험 계획법 연구를 계기로 통계적 가설 검정법을 고안하여, 기술 통계학에서 '''추정 통계학'''의 시대로 옮겨간다. 모집단에서 추출된 표본을 기반으로, 확률론을 이용하여 모집단을 추정한다는 생각이 취해진다. 예지 네이만, 에곤 피어슨 등에 의해 무작위 추출법 채용 등 현대 수리 통계학 이론 체계가 구축되어, 사회 과학, 의학, 공학, 운영 연구 등 다양한 분야에 응용되었다.

주관적 확률을 중심으로 한 '''베이즈 통계학'''이 1954년에 Leonard Savage|레오나르도 사베이지영어의 『통계학의 기초』에 의해 부활했다.[16] 베이즈 정리에 의거하는 주관적 확률은 모집단의 전제를 필요로 하지 않고 불완전 정보 환경하에서의 계산이나 원인의 확률을 말하는 등, 종래 통계학과 정반대의 입장에 섰다. 주관적 확률에는 새롭게 획득한 정보에 의해 확률을 갱신하는 기능(=베이즈 추정)이 내포되어, 큰 응용의 길을 열었다. 현재 통계학에서는 세계적으로 베이즈 통계학이 주류가 되고, 첨단 응용 분야에서는 주로 베이즈 통계학이 사용되고 있다.

계량 경제학, 통계 역학,[85][86][87] 바이오테크놀로지, 역학, 기계 학습, 데이터 마이닝, 제어 이론, 인터넷 등 모든 분야에서 베이즈 통계학은 실학으로 활용되고 있다. 스팸 메일 필터나 일본어 입력 시스템의 입력 예측 등 친숙한 응용도 많다. 20세기 말에는 마르코프 연쇄 몬테카를로법 등 이론면에서 여러 혁신적인 고안도 이루어져, 종래의 통계학에서는 불가능했던 것과 같은 각 분야에서 많은 응용이 이루어지게 되었다.

2. 1. 세계 통계학의 역사

영어의 '스태티스틱스(statistics)'는 '확률'을 뜻하는 라틴어 ''statisticus''(확률) 또는 ''statisticum''(상태), 이탈리아어 ''statista''(나라, 정치가) 등에서 유래했다. 특히 '국가'라는 의미가 담긴 이탈리아어 ''statista''의 영향을 받아, 국가의 인력, 재력 등 국가적 자료를 비교 검토하는 학문을 의미하게 되었다. 근대 통계학은 벨기에의 천문학자이자 사회학자인 케틀레가 벨기에 브뤼셀에서 통계학자들로 구성된 9개의 회의를 소집한 것을 기원으로 한다.[130]

한자 문화권에서 사용되는 통계(統計)라는 단어의 기원은 명확하게 알려진 바는 없지만, 막부 말기에서 메이지 초기에 걸쳐 양학자인 야나가와 슌친이 현재의 의미로 이 단어를 처음 사용했다고 여겨진다. 1869년에 편찬한 책자에서 통계가 현재의 용법으로 사용되었다는 기록이 있으며, 1871년에는 대장성에 통계사(統計司)와 통계요(統計寮)가 설치되면서 통계라는 단어의 사용이 대중화되었다.[133]

"statistic"이라는 용어는 1589년 이탈리아 학자 지롤라모 길리니가 국가에 대한 사실과 정보의 집합과 관련하여 처음 사용했지만, 1749년 독일의 고트프리트 아헨발이 이 용어를 정량적 정보의 집합으로 사용하기 시작했다.[13][14] 유럽에서 통계를 포함한 가장 초기 저술은 1663년 존 그란트가 발표한 ''사망 원인 기록에 대한 자연적 및 정치적 관찰''이다.[15]

통계학의 수학적 기초는 기회 게임에 대한 제롤라모 카르다노, 블레즈 파스칼, 피에르 드 페르마, 크리스티안 하위헌스와 같은 수학자들 간의 논의에서 발전했다. 확률론은 17세기 말, 야코프 베르누이의 유작 ''Ars Conjectandi|확률론la''에서 그 형태를 갖추기 시작했다.[16] 최소 제곱법은 1805년 아드리앵-마리 르장드르가 처음으로 설명했지만, 카를 프리드리히 가우스는 1795년에 이를 사용했을 것으로 추정된다.[18]

현대 통계학 분야는 19세기 후반과 20세기 초에 세 단계로 등장했다.[19]

  • 첫 번째 물결은 프랜시스 골턴칼 피어슨의 연구가 주도했다. 골턴은 표준 편차, 상관 관계, 회귀 분석 개념을 도입하고, 피어슨은 피어슨 적률 상관 계수, 적률법, 피어슨 분포 등을 개발했다.[22] 골턴과 피어슨은 ''Biometrika''를 창간하고, 런던 대학교 유니버시티 칼리지에 세계 최초의 대학 통계학과를 설립했다.[23]
  • 두 번째 물결은 윌리엄 실리 고셋이 시작했고, 로널드 피셔의 통찰력으로 절정에 달했다. 피셔는 ''멘델 유전의 가정 하에서 친척 간의 상관관계'', ''연구자를 위한 통계 방법'', ''실험 계획'' 등의 저서를 통해 분산, 충분성, 피셔의 선형 판별기, 피셔 정보량 등의 개념을 창시했다.[24][25][26][27]
  • 최종 물결은 1930년대 에곤 피어슨과 예르지 네이만의 공동 연구에서 나타났다. 그들은 제2종 오류, 검정력, 신뢰 구간 개념을 도입했다.


오늘날 통계 방법은 의사 결정에 관여하는 모든 분야에 적용되며, 현대 컴퓨터의 사용은 대규모 통계 계산을 가속화하고 새로운 방법들을 가능하게 했다.

2. 2. 한국 통계학의 역사

영어 "statistics"는 라틴어 "statisticum"(상태)에서 유래되었으며, 이탈리아어에서 "국가"를 의미하게 되면서 국가의 인력, 재력 등 국세조사를 비교 검토하는 학문을 의미하게 되었다.

일본어 "통계(統計)"라는 용어는 막말부터 메이지 초기 일본 서양 학자인 야나가와 슌조가 처음 사용했다고 추정된다. 메이지 2년(1869년) 그의 책자에서 이 용어와 용법이 사용되었고, 메이지 4년(1871년) 대장성에 "통계사(統計司)"(후에 "통계료(統計寮)"로 개편)가 설치되면서 널리 퍼졌다.[79]

3. 통계학의 분류

통계학은 크게 기술 통계학과 추론 통계학으로 분류할 수 있다. 기술통계(記述統計, descriptive statistics)는 측정이나 실험을 통해 수집한 자료를 정리하고 요약하여 그 특성을 파악하는 방법이다.[130] 추론 통계(statistical inference)는 수집된 자료를 바탕으로 모집단의 특성을 추론하고 예측하는 방법이다.[130]

기술 통계학은 데이터의 특징을 기술하고 설명하는 데 중점을 두며,[80] 초등학생들의 키 데이터를 분석하여 평균 키를 계산하는 것이 그 예시이다. 반면 추론 통계학은 표본 데이터를 사용하여 모집단의 특성을 추론하며,[80] 일부 초등학생들의 키 데이터를 바탕으로 전체 초등학생들의 평균 키를 예측하는 것이 이에 해당한다.

이 두 가지 방법은 서로 밀접하게 관련되어 있으며, 통계학 연구에서 상호 보완적으로 활용된다.

3. 1. 기술 통계학

기술통계(記述統計, descriptive statistics)는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다.[130] 기술통계학은 데이터의 특징을 기술하는 학문이다.[80]

기술통계학은 데이터 하나가 가지는 특징을 기술·설명하는 데 주목하는 분야이다.[80] 예를 들어 초등학생 99명의 키 데이터가 있다고 가정할 때, 데이터 값은 개별 초등학생의 키를 나타낸다. 이 데이터 값을 키 순서대로 나열하고 50번째 값을 보면 "이 초등학생 99명의 '평균' 키는 약 110cm이다"라고 기술할 수 있다. 여기서 50번째 값은 중앙값이다. 이와 같이 데이터 전체의 특징을 요약·기술하는 것이 기술통계학의 큰 목적·방법론이다.

기술통계는 모집단의 데이터를 요약하는데 사용된다. 범주형 데이터(경주 등)를 설명하는 데는 도수 및 비율이 유용하며, 연속 데이터(소득 등)에는 평균표준 편차를 사용한다.

기술통계에는 분석 방향에 따라 여러 가지가 있다. 단순한 평균, 분산 등의 기초적인 분석 이외에, 모집단에서 어떤 인자들이 있는지 뽑아보는 인자분석, 특정 표본이 어떤 모집단에 속하는지(원 모집단을 어떻게 여러 집단으로 나눠야 하는지) 판단하는 판별분석, 두 인자 간의 상호관계에 대한 정준상관분석, 인자들의 숫자를 줄여 단순화하는 주성분분석, 그 외 군집분석 등 다양한 분석 방법이 존재한다.[130]

3. 2. 추론 통계학

추론 통계(statistical inference)는 기술통계로 어떤 모집단에서 구한 표본 정보를 가지고 그 모집단의 특성 및 가능성 등을 추론해내는 통계적 방법이다. 수집된 자료는 어떻게 분석해야 할지 미리 정해져 있기도 하지만, 대부분 획득한 자료(모집단)를 가지고 여러 그래프를 그려보는 과정에서 별개의 분석 방법을 추가로 채택하기도 한다.[130] 추론 통계는 바탕인 기술 통계량이 있어야 하며, 모든 사람을 대상으로 검사하는 것은 비합리적이고 대규모 집단을 가지고 연구하는 것이 소수의 집단을 가지고 연구하는 것보다 훨씬 경제적이고 효율적이기에 사용된다. 또한 기술 통계량의 정확성을 유지하는 작업으로서 사용되며, 보통 실험 결과가 기존의 방식, 또는 다른 품종간 비교 등에서 차이점이 유의한지를 검증하는 것이다.

모집단의 하위 집합인 표본을 연구할 경우, 모집단을 대표하는 표본이 결정되면 관찰 또는 실험 설정에서 표본 구성원에 대한 데이터를 수집한다. 기술 통계는 표본 데이터를 요약하는 데 사용될 수 있지만, 표본 추출에는 무작위성 요소가 포함되어 있으므로 표본의 수치적 기술자도 불확실성에 취약하다. 따라서 전체 모집단에 대한 의미 있는 결론을 도출하려면 추측 통계가 필요하다. 추측 통계는 무작위성을 고려하면서 표본 데이터의 패턴을 사용하여 표현된 모집단에 대한 추론을 도출한다. 이러한 추론은 데이터에 대한 예/아니오 질문에 답하는 것(가설 검정), 데이터의 수치적 특성을 추정하는 것(추정), 데이터 내의 연관성을 설명하는 것(상관관계), 데이터 내의 관계를 모델링하는 것(예: 회귀 분석 사용)의 형태를 취할 수 있다. 추론은 연구 중인 모집단 내 또는 모집단과 관련된 관찰되지 않은 값의 예측, 예보, 및 추정으로 확장될 수 있으며, 외삽 및 내삽 시계열 또는 공간 데이터뿐만 아니라 데이터 마이닝도 포함된다.

전수 조사 데이터를 수집할 수 없는 경우, 통계학자들은 특정한 실험 계획과 표본 조사를 개발하여 표본 데이터를 수집한다. 표본이 전체 모집단을 대표하는 것이 중요하며, 대표적인 표본 추출은 추론과 결론을 표본에서 전체 모집단으로 안전하게 확장할 수 있도록 보장한다. 통계학은 표본과 데이터 수집 절차 내의 모든 편향을 추정하고 수정하는 방법을 제공한다.

추측통계학은 모집단으로부터의 표본화를 전제로 하여, 표본에서 모집단을 추정하는 분야이다.[80] 예를 들어 전 세계 초등학생의 키 특성을 알고 싶을 때, 전 세계 초등학생의 키를 측정하여 기술통계학으로 중앙값과 평균값을 기술하면 목적을 달성할 수 있지만, 이는 사실상 불가능하다. 그래서 추측통계학에서는 먼저 초등학생 100명의 키 데이터(표본)를 수집하고, 이 표본이 전 세계 초등학생이라는 모집단에서 무작위로 선택된 것이라고 가정한다. 무작위로 선택된 100명의 키 중앙값(표본의 중앙값)은 전 세계 초등학생 키 중앙값(모집단의 중앙값)과 일치하지 않을 수 있지만, "비슷한" 수치가 될 것으로 기대하며, 이를 통해 표본에서 모집단의 특성을 추정할 수 있다.

이처럼 추측통계학은 '''모집단'''의 '''추정'''을 하며, 눈앞에 있는 데이터는 모집단에서 우연히 선택된 표본이라고 간주한다. 추측통계학에서는 표본의 기술통계에서 모집단의 통계량을 추정하듯이, 기술 통계와 추론 통계는 밀접하게 관련되어 있다.

3. 2. 1. 탐색적 자료 분석

'''탐색적 자료 분석'''(Exploratory data analysis|익스플로러토리 데이터 애널리시스영어, EDA)은 주로 시각적 방법을 사용하여 자료 집합의 주요 특징을 요약하기 위한 자료 분석 접근법이다. 통계적 모형을 사용할 수도 있고 사용하지 않을 수도 있지만, EDA는 주로 공식적인 모형화나 가설 검정 작업을 넘어 자료가 우리에게 무엇을 말해줄 수 있는지 확인하는 데 사용된다.

4. 통계적 방법

매우 다양한 분야의 연구에서 주어진 문제에 대하여 적절한 정보를 수집하고 분석하여 해답을 구하는 과정은 아주 중요하다. 이런 방법을 연구하는 과학의 한 분야가 통계학이다. 통계학은 농업, 생명과학, 환경과학, 산업 연구, 품질 보증, 시장 조사 등 매우 다양한 분야에서 필요하며, 기업체와 정부의 의사 결정 과정에서도 중요한 역할을 한다. 통계학자는 필요한 자료의 형태, 자료를 수집하는 방법, 문제에 대한 최선의 답을 구하기 위한 분석 방법을 결정한다.

자료는 특정한 현상을 조사하기 위한 실험에서 나오거나(실험자료), 연구실 밖에서 실제로 존재하는 것을 조사하여 얻을 수 있다(관측자료). 예를 들어 인구 및 주택센서스와 같은 전수조사, 여론조사, 교통량 조사 등이 있다. 이 경우 조사 방법과 설문지 작성은 매우 중요하다. 설문지 조사에서 가장 중요한 부분은 설문지 작성 요령이다. 질문은 짧고 명확해야 하며, 응답자가 고민 없이 바로 대답할 수 있도록 구성해야 한다. 설문지는 문제의 핵심 내용을 담고 있어야 한다.

실험계획법은 데이터 수집의 규모와 대상, 할당 방법을 통제하여, 보다 공정하고 평가 가능한 데이터를 수집할 수 있도록 검토하는 것이다. 통계학에는 "쓰레기 같은 데이터를 가지고 아무리 분석해도 나오는 결과는 쓰레기뿐이다"라는 속담이 있을 정도[81]로 데이터 수집 전의 검토가 중요함을 강조한다.

척도수준에 따라 통계에 사용해야 할 요약 통계량과 통계 검정법이 달라진다. 척도는 다음과 같이 분류된다.


  • 질적 데이터 (범주형 데이터)
  • 명목 척도: 단순한 번호이며 순서의 의미는 없다. 전화번호, 등번호 등.
  • 순서 척도: 순서가 의미를 가지는 번호. 계급이나 계층 등.
  • 양적 데이터 (수치형 데이터)
  • 구간 척도: 순서 외에 간격에도 의미가 있지만(단위가 있지만), 0에는 절대적인 의미가 없다. 섭씨·화씨, 지능지수 등.
  • 비율 척도: 0을 기준으로 하는 절대적 척도이며, 간격뿐 아니라 비율에도 의미가 있다. 절대온도, 금액 등.


신뢰할 수 있는 통계 데이터 수집은 매우 어렵다. 통계학의 기원은 각국이 인구 등을 파악하기 위해 실시한 인구 조사에 있다고 할 수 있지만, 고대와 중세를 거치면서 대부분의 국가에서는 중앙 정부의 권력이 약했고, 로마 제국의 센서스나 중국 역대 왕조의 인구 조사 등의 예외는 있었지만, 특히 대국에서는 이러한 조사를 실시하는 것이 거의 불가능했다.

이러한 조사가 실행 가능해진 것은 18세기부터 19세기 초에 걸쳐서이며, 이 시기에 처음으로 현대적인 의미의 통계학이 성립하게 되었다. 현대에도 행정 능력이 취약한 사하라 사막 이남 아프리카 국가에서는 통계 데이터의 부정확성이 지적되고 있다.

또한, 통계를 작성하는 사람의 주장에 따라 통계치가 크게 달라지는 경우도 많다. 예를 들어, 로널드 레이건 행정부는 당시 미국에 노숙자가 30만 명밖에 없다고 주장했지만, 활동가들은 그 10배인 300만 명이 있다고 주장했다.

질문 방식 하나만으로 결과가 완전히 달라질 수 있다. 강간에 관한 어떤 조사에서 "여대생의 1/4가 강간을 당한 적이 있다"는 결론을 내렸지만, 재조사 결과, 그 3/4가 그 경험을 강간이라고 생각하지 않는다는 사실이 밝혀졌다.

암수 고려에도 주관이 개입될 수밖에 없다. 암수는 "통계에 나타나지 않는 값"으로, 예를 들어 강간과 같은 범죄는 그것이 금기이기 때문에 경찰에 신고하지 않는 경우가 많아 통계에 나타나지 않는다.

정확한 통계 데이터에서 정확한 통계 조작을 수행해도 여전히 속일 수 있다. 예를 들어, 지난 40여 년 동안 청소년 범죄는 1/4로 줄었지만, 최근 10년 동안은 미미하게 증가했다. 이때, 미미하게 증가하고 있는 최근 10년 치 데이터만을 제시하여 "최근 청소년 범죄는 증가하고 있다"는 주장을 하면, 이것은 성립하게 된다.[101]

4. 1. 실험 계획

매우 다양한 분야의 연구에서 주어진 문제에 대하여 적절한 정보를 수집하고 분석하여 해답을 구하는 과정은 아주 중요하다. 이런 방법을 연구하는 과학의 한 분야가 통계학이다. 자료는 어떤 특정한 현상(주제, 사실)을 조사하기 위하여 설계하고 계획한 실험에서 나온다. 통계학자들은 이미 나온 실험자료를 분석하는 데만 관심이 있지 않고, 자원을 효과적으로 사용하고 주어진 문제를 실험으로 해결하기 위하여 처음부터 실험을 계획하는 데 관심이 있다.[130] 실험계획은 자료수집 전에 미리 어떻게 실험할 것인지 계획하여, 원하는 자료를 정확하게 수집하고 기록할 수 있도록 하는 과정이다. 자료 수집의 규모와 대상, 할당 방법을 바르게 결정하고 정당한 자료를 수집할 수 있도록 검토한다. 설문지 작성법 등도 여기에 포함된다.[130]

변인(變因)은 변수(變數)라고도 부르며, 연구의 대상이 되고 있는 일련의 개체를 말한다. 실험의 기본적인 형태는 어떤 변인이 다른 어떤 변인에 어떠한 영향을 미치는지를 알아보고자 한다.

  • 독립 변인(獨立變因): 다른 변인에게 작용하거나 다른 변인을 예언하거나 설명해 주는 변인. 실험연구의 경우는 독립변인은 실험자에 의하여 임의로 통제되고 조작된다. 따라서 실험변인(experimental variable) 또는 처치변인(處置變因, treatment variable)이라고도 한다.
  • 종속 변인(從屬變因): 독립변인의 조작결과(操作結果)에 의존하며 이의 효과를 판단하는 준거가 되는 변인.
  • 매개 변인(媒介變因): 종속변인에 영향을 주는 독립변인 이외의 변인으로서 연구에 통제되어야 할 변인
  • 양적 변인(量的變因): 양의 크기를 나타내기 위하여 수량으로 표시되는 변인
  • 질적 변인(質的變因): 변인이 가지고 있는 속성을 수량화 할 수 없는 변인
  • 연속 변인(連續變因): 주어진 범위 내에서는 어떤 값도 가질 수 있는 변인
  • 비연속 변인(非連續變因): 특정 수치만을 가진 변인


통계 연구 프로젝트의 일반적인 목표는 인과 관계를 조사하고, 특히 예측 변수 또는 독립 변수의 값 변화가 종속 변수에 미치는 영향에 대한 결론을 도출하는 것이다. 인과 관계를 다루는 통계 연구에는 크게 실험 연구와 관찰 연구 두 가지 유형이 있다. 두 유형의 연구 모두 독립 변수(또는 변수들)의 차이가 종속 변수의 행동에 미치는 영향을 관찰한다. 두 유형의 차이는 연구가 실제로 수행되는 방식에 있다. 각 유형 모두 매우 효과적일 수 있다. 실험 연구는 연구 대상 시스템의 측정을 수행하고, 시스템을 조작한 다음, 동일한 절차를 사용하여 다른 수준의 측정을 추가로 수행하여 조작이 측정값을 수정했는지 확인하는 것을 포함한다. 반면 관찰 연구는 실험적 조작을 포함하지 않는다. 대신 데이터를 수집하고 예측 변수와 반응 변수 간의 상관 관계를 조사한다. 데이터 분석 도구는 무작위 연구의 데이터에 가장 효과적으로 작용하지만, 통계학자는 차분 추정 및 작용 변수 등 여러 가지 수정된, 보다 구조화된 추정 방법을 사용하여 일치 추정량을 생성하는 다른 종류의 데이터(예: 자연 실험 및 관찰 연구)[39]에도 적용된다.

4. 2. 설문 조사

설문지 조사에서 가장 중요한 부분은 설문지 작성 요령이다. 질문은 짧고 명확해야 하며, 응답자가 고민 없이 바로 대답할 수 있도록 구성해야 한다. 설문지는 문제의 핵심 내용을 담고 있어야 한다.

설문지는 "앙케이트(Enquete)"라고도 하며, 통계 자료 수집을 위해 필요한 질문들을 기록하는 서식이다. 이를 통해 설문 작성자와 응답자의 객관적인 생각, 가치, 신념, 태도 등 다양한 정보를 수집할 수 있다. 설문지는 표준화되어야 하며, 응답자에 대한 협조 요청, 식별 자료, 지시 사항, 설문 문항, 응답자 분류를 위한 자료 등 다섯 가지 요소로 구성된다. 설문지는 여러 번 수정 및 검토를 거쳐야 하며, 비용이 적게 들고 큰 표본에 적용하기 쉽지만, 무응답률이 높고 응답에 대한 보충 설명 기회가 없다는 단점이 있다.

리커트 척도는 설문 조사의 한 방법이다.

4. 2. 1. 리커트 척도

리커트 척도(Likert scale)는 1932년 리커트(Likert, R.)가 고안한 태도 측정법으로, 응답자가 질문에 대해 동의하거나 반대하는 정도를 나타내는 방식이다.[130]

4. 3. 자료의 종류와 척도

자료는 측정 수준에 따라 분류되며, 이에 따라 통계에 이용해야 할 요약 통계량이나 통계 검정법이 달라진다.[130]

구분척도설명예시
분류 자료(質的資料, qualitative data)명목 척도(名目尺度, nominal scale)단순한 번호로, 순서의 의미는 없다.전화번호, 등번호, 성별, 혈액형(血液型), 주소
분류 자료(質的資料, qualitative data)순서 척도(順序尺度, ordinal scale)순서가 의미를 가지는 번호.계급, 순위(順位), 등급(等級) 등
수량 자료(量的資料, quantitative data)구간 척도(區間尺度, interval scale)순서뿐만 아니라 그 간격에도 의미가 있으나, 0에 절대적인 의미는 없다.온도, 지능 지수(知能指數) 등
수량 자료(量的資料, quantitative data)비율 척도(比率尺度, ratio scale)0을 기준으로 하는 절대적 척도로, 간격뿐만 아니라 비율에도 의미가 있다.절대 온도(絶對溫度), 금액, 몸무게, 키 등



측정 수준의 분류 체계를 만들려는 여러 시도가 있었다. 심리물리학자 스탠리 스미스 스티븐스는 명목, 순서, 간격, 비율 척도를 정의했다. 명목 측정은 값 사이에 의미 있는 순위가 없으며, 일대일(단사) 변환을 허용한다. 순서 측정은 연속적인 값 사이의 차이가 불명확하지만, 그 값에 의미 있는 순서가 있으며, 순서를 유지하는 모든 변환을 허용한다. 간격 측정은 측정 간의 의미 있는 거리가 정의되지만, 영점이 임의적이다(경도섭씨 또는 화씨 온도 측정의 경우와 같음). 그리고 모든 선형 변환을 허용한다. 비율 측정은 의미 있는 영점과 서로 다른 측정 간의 거리가 모두 정의되어 있으며, 모든 재조정 변환을 허용한다.

명목 또는 순서 측정만을 따르는 변수는 수치적으로 측정할 수 없으므로, 때로는 이들을 범주형 변수로 함께 그룹화하는 반면, 비율 및 간격 측정은 수치적 특성으로 인해 양적 변수로 함께 그룹화된다. 이러한 구분은 컴퓨터 과학의 자료형과 종종 느슨하게 상관될 수 있다. 이항 범주형 변수는 부울 자료형으로, 다항 범주형 변수는 정수형 자료형에서 임의로 할당된 정수로, 연속 변수는 실수형 자료형을 포함하는 부동 소수점 산술로 나타낼 수 있다. 그러나 컴퓨터 과학 자료형을 통계적 자료형에 매핑하는 것은 후자의 어떤 범주화가 구현되고 있는지에 따라 달라진다.

다른 범주화도 제안되었다. 예를 들어, Mosteller와 Tukey (1977)[42]은 등급, 순위, 계산된 분수, 계수, 양, 잔액을 구분했다. Nelder (1990)[43]은 연속 계수, 연속 비율, 계수 비율 및 범주형 데이터 모드를 설명했다. (Chrisman (1998),[44] van den Berg (1991)도 참조[45])

서로 다른 종류의 측정 절차에서 얻은 데이터에 서로 다른 종류의 통계적 방법을 적용하는 것이 적절한지 여부의 문제는 변수 변환 및 연구 질문의 정확한 해석과 관련된 문제로 인해 복잡해진다. "데이터와 그것이 설명하는 것 사이의 관계는 특정 종류의 통계적 진술이 일부 변환에 대해 불변하지 않는 진리값을 가질 수 있다는 사실을 반영할 뿐이다. 어떤 변환을 고려하는 것이 타당한지 여부는 답하려고 하는 질문에 달려 있다."[46]

5. 기본 용어


  • 모집단(母集團, population)은 관측 대상이 되는 전체 집단이다. 조사의 대상이 되는 자료 전체이다.[134] 모집단과 관련해서는 그리스 문자를 사용하는 것이 관례이다.
  • 표본(標本, sample) 또는 표본집단(標本集團)은 모집단에서 일부만 조사한 것이다. 모집단에서 추출된 자료의 집합이다. 표본과 관련해서는 영어 알파벳을 사용하는 것이 관례이다.
  • 대푯값(代表값, representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값이 있다.
  • 평균(平均, mean)은 데이터를 모두 더한 후 데이터의 개수로 나눈 값이다.
  • 중앙값(中央값, median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.
  • 최빈값(最頻값, mode)은 가장 자주 나오는 값이다.
  • 기댓값(期待값, expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
  • 산포도(散布度, degree of scattering) 또는 변산성(variability)은 자료가 흩어져 있는 정도를 나타낸다. 범위, 분산, 표준편차 등이 있다.[130]
  • 편차(偏差, deviation)관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
  • 분산(分散, variance)은 관측값에서 평균을 뺀 값 즉 편차(deviation)를 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 편차들(deviations)의 제곱합(SS,sum of square)에서 평균값이다. 관측값들에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오는 평균의 속성으로 인해서 편차 제곱들을 더하게 된다.
  • 표준 편차(標準偏差, standard deviation)분산(分散)을 제곱근한 것이다. 제곱해서 얻은 값이 된 분산의 성질로부터 이를 제곱근해서 다시 원래 크기의 단위로 표준화되도록 만들어준다.
  • 절대 편차(絶對偏差, absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.
  • 범위(範圍): 가장 큰 측정값에서 가장 작은 측정값을 뺀 값이다.
  • 모평균(母平均, population mean) μ는 모집단평균이다. 모두 더한 후(後) 전체 데이터 수 n으로 나눈다. 확률 변수기댓값이다. 표집분포(標集分布)에서 평균으로 \mu_{\overline{x}}를 사용할 수 있다.
  • 표본 평균(標集平均, sample mean) \overline{X} 는 표본의 평균이다. 모두 더한 후 n으로 나눈다.
  • 모분산(母分散, population variance) σ2은 모집단의 분산이다. 관측값에서 모평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
  • 표본분산(標本分散, sample variance) s2은 표본의 분산이다. 관측값에서 표본평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
  • 모표준편차(母標準偏差, population standard deviation) σ는 모집단의 표준편차이다. 모분산 σ2제곱근을 씌워서 구한다. 표집분포에서 표준편차로 \sigma_{\overline{x}}를 사용할 수 있다.
  • 표본표준편차(標本標準偏差, sample standard deviation) s는 표본의 표준편차이다. 표본분산 s2에 제곱근을 씌워서 구한다.
  • 평균 절대 편차(平均絶對偏差, average absolute deviation 또는 mean absolute deviation)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다.
  • 중앙값 절대 편차(中央값絶對偏差, median absolute deviation)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다.
  • 최소 절대 편차(最小絶對偏差, least absolute deviation)회귀 분석(回歸分析, regression analysis)에 사용된다.
  • 상관관계(相關關係, correlation 또는 correlation analysis)는 두 개의 변량이 어느 정도 규칙적으로 동시에 변화되어 가는 성질이다. 모집단의 상관관계는 ρ, 표본의 상관관계는 r을 기호로 사용한다.
  • 신뢰도(信賴度, reliability): 통계에서 어떠한 값이 알맞은 모평균이라고 믿을 수 있는 정도.
  • 신뢰 구간(信賴區間, confidence interval, CI) 또는 신뢰 수준(水準, confidence interval level): 1-α나 100(1-α)%의 신뢰 구간.
  • 유의 수준(有意水準, significance level): 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다.
  • p-값(p-value, probability value) 또는 유의 확률(significance probability, asymptotic significance): 귀무 가설 H0를 기각할 수 있는 최소한의 유의 수준이다.
  • 임계 값(臨界값, critical value, threshold value): 검정 통계량의 분포에서 유의 수준 α값에 해당하는 선 위의 값이다.

6. 통계 분석 소프트웨어


  • SAS(Statistical Analysis System)는 기업체에서 주로 쓰는 대표적 프로그램이다. 큰 규모의 자료를 편리하게 다룰 수 있으나 각종 통계 분석 결과를 왜곡해서 보여준다는 비판을 받기도 한다.[136]
  • R은 무료 공개 통계 프로그래밍 및 개발환경이다. S 언어에 바탕을 두고 개발되었으며, 학술적 목적으로 널리 사용된다. 새로 개발된 분석 방법들이 확장 패키지를 통해 공개되고 있다.
  • SPSS (Statistical Package for the Social Sciences)는 1995년 윈도우 버전이 출시되었다. IBM에서 개발하고있다. 다양한 통계분석을 할 수 있고 사회과학, 의학 등 전 분야에서 다양하게 쓰이는 프로그램이나 계산 속도가 느려 큰 규모의 자료를 다루기에는 편리하지 않다.
  • PSPP는 샘플 데이터 분석 및 통계를 위한 무료 및 공개 소프트웨어 애플리케이션으로 IBM SPSS와 대부분 호환된다.
  • MINITAB은 학교와 기업에서 품질관리와 통계학 교육용으로 많이 사용되는 프로그램이다.
  • RevMan은 코크란에서 제공하는 의료보건분야의 무료 메타분석 프로그램인 코크란 리뷰 메니저(Cochrane Review Manager)이다.

오픈소스 통계 패키지의 한 예인 gretl

7. 통계학 관련 학문

통계학은 컴퓨터 과학, 프로그래밍 언어, 선형대수학, 해석학, 분포론, 수치해석, 확률론 등 여러 학문과 관련되어 있다.[130]

분산분석, 회귀분석, 요인분석 등과 같은 평가모형들은 사회과학의 발전에 따라 정책평가에 응용되어 정책영향의 평가에 공헌하고 있으며, 계속 발전하고 있다.

정보화사회와 빅 데이터 시대를 맞아 사회조사분석학이 등장하여, 다양한 사회정보의 수집·분석·활용을 담당한다. 이는 기업, 정당, 지방자치단체, 중앙정부 등 각종 단체의 시장조사 및 여론조사 등에 대한 계획을 수립하고 조사를 수행하며 그 결과를 체계적으로 분석, 보고서를 작성하는 데 필요한 학문이다.

사회조사분석사는 기업이나 정당, 지자체, 중앙정부 등 각종 단체가 필요로 하는 조사를 수행해 분석, 보고하는 전문 인력군이다. 주로 경영, 조사기획, 자료분석, 마케팅 분야에서 일하므로 조사방법론, 사회통계, SPSS 통계분석 실무 등의 지식을 필요로 한다.

수리 통계학(Mathematical statistics)은 통계학에 수학을 적용하는 분야이다. 사용되는 수학적 기법에는 수리 해석, 선형 대수학, 확률 과정, 미분 방정식, 측도론적 확률론이 포함된다.[9][10] 모든 통계 분석은 어느 정도의 수학을 사용하며, 따라서 수리 통계학은 일반 통계학의 기본 구성 요소로 간주될 수 있다.[11]

응용 통계학(Applied statistics)은 때때로 통계 과학(Statistical science)으로 불리며, 기술 통계와 추론 통계의 응용을 포함한다.[62][63][64] 이론 통계학(Theoretical statistics)은 통계적 추론에 대한 접근 방식의 정당성을 뒷받침하는 논리적 주장과 수리 통계학을 모두 포함한다. 수리 통계학은 추정 및 추론 방법과 관련된 결과를 도출하는 데 필요한 확률 분포의 조작뿐만 아니라 계산 통계학과 실험계획법의 다양한 측면도 포함한다.

통계 컨설턴트는 자체 전문 지식이 없는 조직과 회사가 특정 질문과 관련된 문제를 해결하는 데 도움을 줄 수 있다.

머신러닝 모델은 계산 알고리즘을 사용하여 데이터의 패턴을 포착하는 통계적이고 확률적인 모델이다.

통계는 학문 분야의 광범위한 영역, 자연 과학과 사회 과학, 정부 및 사업체를 포함하여 적용 가능하다. 사업 통계는 계량 경제학, 감사, 생산 및 운영, 서비스 개선 및 시장 조사를 포함하여 통계적 방법을 적용한다.[65]

경영에서 "통계학"은 널리 사용되는 경영 및 의사결정 지원 도구이다. 특히 재무 관리, 마케팅 관리, 생산, 서비스, 운영 관리에 적용된다.[68][69] 통계학은 관리 회계 및 감사에서도 많이 사용된다. 경영 과학이라는 학문 분야는 경영에서 통계학 및 기타 수학의 사용을 공식화한다. (계량 경제학은 경제적 관계에 경험적 내용을 제공하기 위해 경제 데이터에 통계적 방법을 적용하는 것이다.)

통계 기법은 생물통계학, 계산 생물학, 계산 사회학, 네트워크 생물학, 사회과학, 사회학 및 사회 연구를 포함한 광범위한 유형의 과학 및 사회 연구에 사용된다. 일부 연구 분야는 응용 통계를 매우 광범위하게 사용하여 전문 용어를 갖게 되었다.



또한, 특정 유형의 통계 분석은 자체 전문 용어와 방법론을 개발했다.

  • 부트스트래핑 및 잭나이프 재표본 추출
  • 다변량 통계학
  • 통계적 분류
  • 구조화된 데이터 분석
  • 구조 방정식 모형
  • 조사 방법론
  • 생존 분석
  • 다양한 스포츠, 특히 야구 – 세이버메트릭스 – 및 크리켓


통계는 비즈니스 및 제조업에서 핵심 기반 도구를 형성한다. 측정 시스템 변동성을 이해하고, 공정을 제어하며 (통계적 공정 관리 또는 SPC), 데이터를 요약하고, 데이터 기반 의사 결정을 내리는 데 사용된다.

확률론중등교육에서 "확률·통계"로 통칭되던 것처럼[88][89], 통계학과 매우 깊은 관련이 있다.[90][91][92][93][94][95][96]

8. 통계학의 윤리적 문제와 비판

통계는 데이터를 다루는 유용한 도구이지만, 잘못 사용되거나 해석될 경우 심각한 문제로 이어질 수 있다. 특히, 통계적 지식이 부족한 사람들은 통계 결과를 오해하기 쉽다.

교란 변수 문제: ''X''와 ''Y''는 서로 인과 관계가 있기 때문이 아니라, 둘 다 세 번째 변수 ''Z''에 의존하기 때문에 상관관계가 있을 수 있다. ''Z''는 교란 요인이라고 한다.


데이터 집합에 대한 통계적 분석은 종종 고려 중인 모집단의 두 변수(속성)가 마치 연결된 것처럼 함께 변하는 경향이 있음을 보여준다. 예를 들어, 연간 소득을 조사하고 사망 연령도 조사하는 연구는 가난한 사람들이 부유한 사람들보다 수명이 짧은 경향이 있음을 발견할 수 있다. 이때 두 변수는 상관 관계가 있다고 한다. 그러나 상관관계가 있다고 해서 반드시 한 변수가 다른 변수의 원인이 되는 것은 아니다. 이러한 상관관계는 제3의 변수, 즉 잠재 변수 또는 교란 변수에 의해 발생할 수 있기 때문이다. 따라서 두 변수 간에 상관관계가 있다는 사실만으로 인과관계가 존재한다고 단정 지을 수는 없다.

칼 포퍼의 반증 가능성 이론에 따르면 반증 불가능한 이론은 비과학적이다. 따라서 반증 불가능한 통계 이론이 존재하는 경우, 이를 비과학적이라고 하는 논문이 있다는 점에 유의해야 한다.[102]

8. 1. 통계의 오용과 남용

통계 기법은 올바르게 적용되더라도 전문 지식이 없는 사람들에게는 결과를 해석하기 어려울 수 있다. 데이터의 추세에 대한 통계적 유의성(표본의 무작위 변동으로 인해 추세가 발생할 수 있는 정도를 측정)은 직관적인 유의성과 일치할 수도 있고 일치하지 않을 수도 있다. 사람들이 일상생활에서 정보를 적절히 다루는 데 필요한 기본적인 통계 기술(및 회의론) 집합을 통계적 소양이라고 한다.[56]

통계 지식이 발표자에게 유리한 데이터만 해석하는 방법을 찾아 의도적으로 오용되는 경우가 너무 흔하다는 일반적인 인식이 있다.[56] 통계에 대한 불신과 오해는 “거짓말에는 세 가지 종류가 있다. 거짓말, 빌어먹을 거짓말, 그리고 통계다”라는 인용구와 관련이 있다.

통계의 오용은 기술과 해석에 미묘하지만 심각한 오류를 초래할 수 있다. 미묘하다는 것은 경험이 많은 전문가조차도 이러한 오류를 범할 수 있다는 것을 의미하며, 심각하다는 것은 파괴적인 의사결정 오류로 이어질 수 있다는 것을 의미한다. 예를 들어, 사회 정책, 의료 관행, 다리와 같은 구조물의 신뢰성은 모두 통계의 적절한 사용에 의존한다. 통계의 오용은 고의적일 수도 있고 우발적일 수도 있으며, 다렐 허프는 거짓말하는 방법[56]이라는 책에서 다양한 고려 사항을 개괄적으로 설명한다. 통계의 사용과 오용을 명확히 하기 위해 특정 분야에서 사용되는 통계 기법에 대한 검토가 수행된다.[57]

통계 오용을 피하는 방법에는 적절한 도표를 사용하고 편향을 피하는 것이 포함된다.[58] 결론이 과도하게 일반화되고 실제보다 더 많은 것을 대표하는 것으로 주장될 때, 종종 의도적이거나 무의식적으로 표본 추출 편향을 간과함으로써 오용이 발생할 수 있다.[59] 대부분의 사람들은 편향이나 오류를 찾지 않으므로 눈에 띄지 않는다. 따라서 사람들은 잘 표현되지 않더라도 종종 무언가가 사실이라고 믿을 수 있다.[59] 통계에서 수집한 데이터를 신뢰할 수 있고 정확하게 만들려면 표본이 전체를 대표해야 한다.[60] 허프에 따르면, "표본의 신뢰성은 [편향]으로 파괴될 수 있습니다... 어느 정도의 회의론을 허용하십시오."[61]

통계 이해를 돕기 위해 허프는 각 경우에 대해 질문할 질문 목록을 제안했다.[56]

  • 누가 그렇게 말하는가? (그/그녀에게는 불만이 있는가?)
  • 그는/그녀는 어떻게 아는가? (그/그녀에게는 사실을 알 수 있는 자원이 있는가?)
  • 무엇이 빠져 있는가? (그/그녀는 우리에게 완전한 그림을 제공하는가?)
  • 누군가 주제를 바꿨는가? (그/그녀는 우리에게 잘못된 문제에 대한 올바른 답을 제공하는가?)
  • 말이 되는가? (그/그녀의 결론은 논리적이며 우리가 이미 알고 있는 것과 일치하는가?)

8. 2. 상관관계와 인과관계 혼동



상관관계는 두 변수가 서로 관련되어 있는 정도를 나타내는 통계적 개념이다. 예를 들어, 소득과 사망 연령을 조사한 연구에서 가난한 사람들이 부유한 사람들보다 수명이 짧은 경향이 있다는 결과가 나왔다면, 이 두 변수는 상관관계가 있다고 할 수 있다. 하지만, 상관관계가 있다고 해서 반드시 한 변수가 다른 변수의 원인이 되는 것은 아니다. 이러한 상관관계는 제3의 변수, 즉 잠재 변수 또는 교란 변수에 의해 발생할 수 있기 때문이다. 따라서 두 변수 간에 상관관계가 있다는 사실만으로 인과관계가 존재한다고 단정 지을 수는 없다.[56]

8. 3. 재현성의 위기

(빈칸 - 주어진 원본 소스에 해당 섹션 관련 내용 없음)

8. 4. 반증 가능성

주어진 원본 소스에는 '통계학' 문서의 '반증 가능성' 섹션에 대한 내용이 없습니다. 따라서 해당 섹션은 작성할 수 없습니다. 이전 답변과 동일하게, 원본 소스에 없는 내용은 생성할 수 없습니다.

참조

[1] multiref Statistik https://www.dwds.de/[...] Berlin-Brandenburgischen Akademie der Wissenschaften 2024-08-01
[2] multiref Statistics https://dictionary.c[...] Oxford University Press
[3] 서적 The Oxford Dictionary of Statistical Terms Oxford University Press
[4] 웹사이트 Descriptive and Inferential Statistics https://statistics.l[...] statistics.laerd.com 2014-03-23
[5] 서적 Think and Explain with Statistics Addison-Wesley
[6] 서적 Statistics for the Social Sciences Holt, Rinehart and Winston
[7] 서적 Statistics for the Twenty-First Century https://archive.org/[...] The Mathematical Association of America
[8] 서적 Investigating Statistical Concepts, Applications, and Methods Duxbury Press 2009-12-06
[9] 서적 Handbook of stochastic analysis and applications M. Dekker 2002
[10] 서적 Theory of statistics Springer 1995
[11] 서적 Mathematical Statistics https://books.google[...] Springer Science & Business Media 2008-02-03
[12] 학술지 An Account of Early Statistical Inference in Arab Cryptology 2011-11-01
[13] 학술지 The emergence of statistical science
[14] 서적 States and the Masters of Capital: Sovereign Lending, Old and New https://books.google[...] Columbia University Press
[15] 간행물 The Founder of Statistics
[16] 서적 The Science of Conjecture Taylor & Francis
[17] multiref The Art of Conjecturing, Together with Letter to a Friend on Sets in Court Tennis https://books.google[...] Johns Hopkins University Press
[18] 웹사이트 Gauss, Least Squares, and the Missing Planet https://www.actuarie[...] 2022-11-01
[19] 서적 Studies in the history of statistical method https://books.google[...] Arno
[20] 학술지 Typical laws of heredity
[21] 학술지 Francis Galton's Account of the Invention of Correlation
[22] 학술지 On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling https://zenodo.org/r[...]
[23] 웹사이트 Karl Pearson (1857–1936) http://www.ucl.ac.uk[...] Department of Statistical Science, University College London
[24] 학술지 R. A. Fisher and the Design of Experiments, 1922–1926 1980-02-01
[25] 학술지 Sir Ronald Fisher and the Design of Experiments 1964-06-01
[26] 학술지 The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later
[27] 학술지 Bayesian Inference for Categorical Data Analysis http://www.stat.ufl.[...] 2013-12-19
[28] 서적 The Design of Experiments
[29] 서적 The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis
[30] 학술지 Natural Selection and the Sex Ratio: Fisher's Sources
[31] 간행물 The evolution of sexual preference
[32] 서적 The Genetical Theory of Natural Selection Oxford University Press
[33] 간행물 Perspectives: Anecdotal, Historical and Critical Commentaries on Genetics
[34] 서적 Sexual Selection https://books.google[...] Princeton University Press
[35] 간행물 Sexual selection and mate choice
[36] 논문 Sexual selection: Another Darwinian process
[37] 논문 On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection
[38] 웹사이트 Science in a Complex World – Big Data: Opportunity or Threat? http://www.santafe.e[...] 2013-12-02
[39] 서적 Statistical Models: Theory and Practice Cambridge University Press
[40] 논문 The Hawthorne Effect: a randomised, controlled trial
[41] 서적 Modern Epidemiology https://archive.org/[...] Lippincott Williams & Wilkins 2008
[42] 서적 Data analysis and regression Addison-Wesley
[43] 간행물 The knowledge needed to computerise the analysis and interpretation of statistical information Library Association Report 1990-03-23
[44] 논문 Rethinking Levels of Measurement for Cartography
[45] 서적 Choosing an analysis method DSWO Press
[46] 서적 Measurement theory and practice: The world through quantification Arnold
[47] 서적 Introductory Statistics https://archive.org/[...] Wiley
[48] 웹사이트 Descriptive Statistics Research Connections https://www.research[...]
[49] 서적 Oxford Dictionary of Statistics OUP
[50] 웹사이트 Basic Inferential Statistics - Purdue OWL® - Purdue University https://owl.purdue.e[...]
[51] 서적 Probabilità e Statistica Esculapio
[52] 서적 The Cambridge Dictionary of Statistics https://archive.org/[...] Cambridge University Press
[53] 웹사이트 Cohen (1994) The Earth Is Round (p < .05) http://www.yourstats[...] YourStatsGuru.com
[54] 서적 Statistical analysis with missing data Wiley
[55] 논문 Why Most Published Research Findings Are False
[56] 서적 How to Lie with Statistics WW Norton & Company, Inc
[57] 논문 Statistical Methods Used in Gifted Education Journals, 2006–2010
[58] 서적 Encyclopedia of Archaeology https://archive.org/[...] Elsevier Inc.
[59] 논문 Misuse of Statistics 1938-12
[60] 논문 Modern Elementary Statistics
[61] 서적 How to Lie with Statistics Norton
[62] 논문 From Statistics to Statistical Science
[63] 서적 Statistics: Concepts and Examples
[64] 서적 Introduction to Statistics: Concepts and Applications West Group
[65] 웹사이트 Journal of Business & Economic Statistics https://amstat.tandf[...] Taylor & Francis
[66] 논문 Which statistics should tropical biologists learn? https://investiga.un[...]
[67] 서적 The Manager's Guide to Statistics Erol Pekoz
[68] 웹사이트 Aims and scope https://amstat.tandf[...] Taylor & Francis
[69] 웹사이트 Journal of Business & Economic Statistics https://amstat.tandf[...] Taylor & Francis
[70] 서적 Principles of Business Statistics https://open.umn.edu[...] Juta Academic
[71] 서적 Nonparametric Statistical Methods Using R https://www.worldcat[...] EDTECH 2021-09-16
[72] 학술지 Pollock avoided hydrodynamic instabilities to paint with his dripping technique 2019-10-30
[73] 뉴스 「統計学が最強」の西内啓氏「パチンコには二度と行かない」 https://www.news-pos[...] NEWSポストセブン 2017-12-23
[74] 서적 Introductory statistics for business and economics Wiley 1990
[75] 서적 Statistics for business and economics Pearson 2013
[76] 서적 Statistics for psychology Prentice-Hall, Inc. 1999
[77] 서적 How to report statistics in medicine: annotated guidelines for authors, editors, and reviewers ACP Press 2006
[78] 웹사이트 라틴어 "statisticum (collegium)"의 의미
[79] 웹사이트 「統計」という言葉の起源 https://www.stat.go.[...] 2022-10-22
[80] 웹사이트 記述統計学 http://www.ner.takus[...] 2020-01-30
[81] 웹사이트 Garbage in, garbage out.
[82] 서적 人間と社会を変えた9つの確率・統計学物語 SBクリエイティブ 2015-04-24
[83] 서적 生体認証国家 グローバルな監視政治と南アフリカの近現代 岩波書店 2017-08-24
[84] 웹사이트 생물통계학(biostatistics)
[85] 서적 The principles of statistical mechanics Courier Corporation 1979
[86] 서적 Statistical mechanics: Rigorous results World Scientific 1999
[87] 서적 Mathematical statistical mechanics Princeton University Press 2015
[88] 웹사이트 第3節 数  学 https://erid.nier.go[...] 高等学校学習指導要領(昭和57年4月施行)
[89] 웹사이트 確率・統計
[90] 서적 Probability theory: independence, interchangeability, martingales Springer Science & Business Media 2003
[91] 서적 An introduction to probability theory and its applications John Wiley & Sons 2008
[92] 서적 Probability: theory and examples Cambridge University Press 2019
[93] 서적 Probability theory: The logic of science Cambridge University Press 2003
[94] 서적 A course in probability theory Academic Press 2001
[95] 서적 確率論入門 筑摩書房 2014
[96] 서적 確率論入門 2006
[97] 서적 Introduction to machine learning MIT Press 2020
[98] 서적 Machine learning: an algorithmic perspective CRC Press 2015
[99] 서적 機械学習入門 ボルツマン機械学習から深層学習まで 株式会社 オーム社 2016
[100] 서적 Machine learning: a probabilistic perspective MIT Press 2012
[101] 서적 反社会学講座 イースト・プレス 2004
[102] 학술지 A Falsifying Rule for Probability Statements https://www.journals[...] 1971-08-01
[103] 블로그 Excel使うな http://oku.edu.mie-u[...] Okumura's Blog
[104] 학술지 Special Section on Microsoft Excel 2007 2008-06-15
[105] 웹사이트 Excel は,コンピュータ・ソフトウェアの三種の神器のようになっていますが,とんでもないこともあるというお話。 http://aoki2.si.gunm[...]
[106] 웹사이트 間違いだらけのExcel関数ヘルプ「財務・統計関数編」市販解説本で孫引きしている点も警告 http://www.shochian.[...]
[107] 웹사이트 On the Numerical Accuracy of Spreadsheets http://www.jstatsoft[...] 2010-04-00
[108] 논문 R: a language for data analysis and graphics 1996-00-00
[109] 서적 Octaveの精義 - フリーの高機能数値計算ツールを使いこなす 2011-00-00
[110] 서적 Engineering and scientific computing with Scilab Springer Science & Business Media 2012-00-00
[111] 서적 Scilab 入門: フリーソフトで始める数値シミュレーション CQ出版 2009-00-00
[112] 서적 Scilab プログラミング入門 牧野書店 2010-00-00
[113] 서적 Digital image processing using SCILAB Springer International Publishing 2019-00-00
[114] 서적 Maximaで学ぶ経済・ファイナンス基礎数学 共立出版 2012-12-08
[115] 논문 Risa/Asir-a computer algebra system 1992-08-00
[116] 논문 A computer algebra system: Risa/Asir Springer, Berlin, Heidelberg 2003-00-00
[117] 논문 SciPy: Open source scientific tools for Python 2001-00-00
[118] 서적 SciPy and NumPy: an overview for developers O'Reilly Media, Inc. 2012-00-00
[119] 서적 Learning SciPy for numerical and scientific computing Packt Publishing Ltd. 2013-00-00
[120] 웹사이트 정보・システム研究機構
[121] 웹사이트 高等学校学習指導要領解説・数学編 https://www.mext.go.[...] 文部科学省
[122] 웹사이트 学校における統計教育の位置づけ|統計学習の指導のために(先生向け) https://warp.da.ndl.[...]
[123] 웹사이트 学校における統計教育の位置づけ https://www.stat.go.[...]
[124] 서적 ベイズ統計学入門 福村出版 1999-00-00
[125] 서적 入門ベイズ統計学 2007-00-00
[126] 서적 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 Asakura Shoten 2015-00-00
[127] 서적 ベイズ統計学概説: フィッシャーからベイズへ 培風館 2010-00-00
[128] 서적 予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで 講談社 2011-00-00
[129] 뉴스 명저 새로 읽기, 이언 해킹 "우연을 길들이다" http://news.khan.co.[...] 경향신문 2013-01-18
[130] 서적 알기 쉬운 기초통계학 형설출판사 2012-00-00
[131] 서적 Statistics for the Twenty-First Century https://archive.org/[...] The Mathematical Association of America 1992-00-00
[132] 서적 Investigating Statistical Concepts, Applications, and Methods http://www.rossmanch[...] Duxbury Press 2005-00-00
[133] 웹사이트 「「統計」という言葉の起源」統計学習の指導のために(先生向け) https://www.stat.go.[...] 日本国総務省統計局 2019-11-20
[134] 서적 개념원리 적분과통계
[135] 서적 새거시경제학 http://www6.aladin.c[...]
[136] 웹사이트 Exegeses on Linear Models http://www.stats.ox.[...]
[137] 웹사이트 통계청 http://kostat.go.kr/[...]
[138] 웹사이트 사회조사분석사 http://sa.stat.or.kr[...] 2014-08-29
[139] 뉴스 통계청 `빅데이터 연구회` 발족, 통계정보국 직원 중심 자체 결성… 동향 분석ㆍ활용방안 모색 http://www.dt.co.kr/[...] 디지털타임스 2012-11-08
[140] 뉴스 “빅테이터가 기업미래 좌우” http://weekly2.cnbne[...] CNB저널 2013-02-12



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com