맨위로가기

기술통계학

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

기술통계학은 수집된 데이터를 요약하고 설명하는 통계적 방법론이다. 표본 데이터 자체의 특성을 파악하는 데 중점을 두며, 평균, 중앙값, 최빈값과 같은 중심 경향 지표와 표준 편차, 분산과 같은 변동성 지표를 사용한다. 단변량, 이변량 및 다변량 분석을 통해 자료를 분석하며, 빈도 분포, 상관 관계, 조건부 분포 등을 설명한다. 기술 통계는 농구 슛 성공률이나 평점 평균과 같이 다양한 분야에서 활용되며, 통계 분석의 기초를 다지는 데 중요한 역할을 한다.

더 읽어볼만한 페이지

  • 기술통계학 - 조화 평균
    조화 평균은 양의 실수들의 역수의 산술 평균의 역수로 정의되며, 작은 값에 민감하게 반응하여 비율이나 비를 포함하는 상황에서 유용하게 활용되는 평균의 한 종류이다.
  • 기술통계학 - 멱평균
    멱평균은 양의 실수에 대해 정의되는 평균의 종류로, 지수 p를 사용하여 계산되며, p 값에 따라 조화 평균, 기하 평균, 산술 평균 등 다양한 특수한 경우를 나타낸다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
기술통계학
개요
유형통계학
하위 분야기술통계학
관련 항목추론통계학, 자료 요약
세부 사항
정의자료를 요약하고 설명하는 통계
목적자료의 주요 특징을 파악하고 제시
사용 도구평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 사분위수 등
특징
장점자료의 전체적인 경향을 쉽게 파악 가능
단점자료의 세부적인 특징을 놓칠 수 있음
응용 분야
예시인구 통계, 경제 지표, 스포츠 기록 등

2. 기술통계학의 개념 및 단계

기술 통계학(descriptive statistics|데스크립티브 스태티스틱스영어)은 수집된 데이터를 요약, 묘사, 설명하는 통계적 방법론이다. 추론 통계학이 모집단에 대한 추론을 목적으로 하는 반면, 기술통계학은 표본 데이터 자체의 특성을 파악하는 데 중점을 둔다.[9] 확률론에 기초하지 않고, 비모수적 기법인 경우가 많다.[10]

데이터 분석에서 추론 통계를 사용하여 주요 결론을 도출하는 경우에도 일반적으로 기술 통계도 함께 제시된다.[11] 예를 들어, 사람을 대상으로 하는 연구 논문에서는 전체 표본 수, 주요 하위 그룹별 표본 수, 평균 연령, 성별 비율, 관련 질환 유무 등 인구 통계학적 또는 임상적 특징을 나타내는 표를 포함하는 경우가 많다.

데이터 세트를 기술하기 위해 일반적으로 사용되는 지표에는 중심 경향 지표와 변동성 또는 분산 지표가 있다. 중심 경향 지표에는 평균, 중앙값, 최빈값이 있으며, 변동성 지표에는 표준 편차(또는 분산), 변수의 최솟값과 최댓값, 첨도, 왜도가 있다.[12] Central tendency|센트럴 텐던시영어는 영어 표현이므로 삭제했다.

2. 1. 기초 기술통계분석

기초적인 기술통계분석에는 평균, 표준 편차와 같은 수치나 산점도, 막대그래프와 같은 시각적 표현이 있다. 이러한 기초적인 기술통계분석은 추론통계와 같은 복잡한 통계 분석뿐만 아니라 빈도분석, 기술분석, 상관분석 등의 기본이 된다.[6]

기술 통계는 표본 및 관측치에 대한 간단한 요약을 제공한다. 이러한 요약은 요약 통계량과 같은 양적인 것일 수도 있고, 이해하기 쉬운 그래프와 같은 시각적인 것일 수도 있다. 이러한 요약은 더 광범위한 통계 분석의 일부로 데이터의 초기 설명을 구성하는 기반을 형성할 수도 있고, 특정 조사에 대해 그 자체로 충분할 수도 있다.[6]

예를 들어, 농구의 슛 성공률은 선수나 팀의 성과를 요약하는 기술 통계량이다. 이 숫자는 성공한 슛의 수를 시도한 슛의 수로 나눈 값이다. 예를 들어, 33%의 슛 성공률을 보이는 선수는 3번 중 약 1번의 슛을 성공시킨다. 이 백분율은 여러 개의 개별 사건을 요약하거나 설명한다. 평점 평균도 고려해 볼 수 있다. 이 단일 숫자는 학생의 광범위한 코스 경험에 걸쳐 일반적인 성과를 설명한다.[6]

3. 자료 수집 및 분석 방법

기술통계학에서 자료는 다양한 방법으로 수집되고 분석된다. 자료 설계, 수집, 검증, 분석, 재검증 등의 단계를 거친다.

자료 분석에는 단변량 분석과 이변량 및 다변량 분석이 있다.


  • 단변량 분석: 하나의 변수에 대한 분석으로, 평균, 중앙값, 최빈값 등의 중심 경향 지표와 표준 편차, 분산, 변수의 최솟값과 최댓값, 첨도, 왜도 등의 변동성 지표를 사용한다. 정규 분포의 경우, 평균과 분산 또는 표준 편차로 분포를 설명할 수 있다.
  • 이변량 및 다변량 분석: 둘 이상의 변수 간의 관계를 분석한다. 분할표, 산점도를 사용하거나, 의존성의 정량적 척도(예: 피어슨 상관 계수, 스피어만 순위 상관 계수)를 사용한다. 공분산도 변수 간 관계를 나타내는 척도로 활용된다.

3. 1. 단변량 분석

단변량 분석은 하나의 변수의 빈도 분포를 설명하는 것이다. 여기에는 중심 경향과 분산이 포함된다. 중심 경향은 평균, 중앙값, 최빈값을 포함하며, 분산은 자료 범위, 사분위수, 분산, 표준 편차와 같이 데이터가 퍼져 있는 정도를 나타낸다. 분포의 모양은 왜도첨도와 같은 지수를 통해 설명할 수 있다. 변수의 분포 특성은 히스토그램줄기 잎 그림을 포함하여 그래픽 또는 표 형식으로 나타낼 수도 있다.[9]

데이터 세트를 기술하기 위해 일반적으로 사용되는 지표에는 중심 경향 지표와 변동성 또는 분산 지표가 있다. 중심 경향 지표에는 평균, 중앙값, 최빈값이 있으며, 변동성 지표에는 표준 편차 (또는 분산), 변수의 최솟값과 최댓값, 첨도, 왜도가 있다.[12]

정규 분포의 경우, 평균과 분산 또는 표준 편차로 분포를 설명할 수 있다. 정규 분포에서 벗어났는지를 확인하기 위해서는 첨도나 왜도 등의 고차 모멘트로부터 구해지는 통계량을 사용한다.

정규 분포에서 현저하게 벗어난 경우에는, 보다 강건한 중앙값, 사분위수, 최댓값, 최솟값 및 최빈값이 사용된다. "강건"은 분포의 비대칭성이나 이상치 등의 영향을 받기 어렵다는 것을 의미하는 통계 용어이다. 예를 들어, 노동자 1인당 연수입을 예로 들면, 수입이 가장 적어도 0 미만이 될 수는 없는 반면, 수입이 많은 쪽에서는 수십억 엔의 연수입을 버는 소수가 있을 수 있다. 이 경우의 분포는 소수가 상위에 있기 때문에 상위에 극단적으로 꼬리를 끄는 비대칭적인 분포가 된다. 평균은 이러한 극단적인 고값의 영향을 받아 분포의 대표값으로 적절하지 않게 된다. 중앙값이나 최빈값은, 아무리 튀는 값이라도 1예로밖에 취급되지 않으므로, 보다 다수의 체감에 가까운 값을 나타낼 수 있다.

3. 2. 이변량 및 다변량 분석

표본이 둘 이상의 변수로 구성된 경우, 기술 통계는 변수 쌍 간의 관계를 설명하는 데 사용될 수 있다. 이변량 분석은 단순한 기술 분석을 넘어 서로 다른 두 변수 간의 관계를 설명한다.[7]

  • 분할표
  • 산점도를 통한 그래프 표현
  • 의존성의 정량적 척도
  • 조건부 분포에 대한 설명


의존성의 정량적 척도에는 상관 관계(두 변수 모두 연속형일 경우 피어슨 상관 계수, 하나 이상이 연속형이 아닐 경우 스피어만 순위 상관 계수)와 공분산이 포함된다. 회귀 분석에서 기울기 또한 변수 간의 관계를 반영한다. 비표준화 기울기는 예측 변수의 한 단위 변화에 대한 기준 변수의 단위 변화를 나타낸다. 표준화된 기울기는 표준화된 (z-score) 단위의 이러한 변화를 나타낸다. 왜도가 높은 데이터는 종종 로그를 취하여 변환된다. 로그를 사용하면 그래프가 더 대칭적이고 정규 분포와 더 유사하게 보여 직관적으로 해석하기가 더 쉬워진다.[8]

4. 통계량

통계량은 데이터를 요약하고 설명하는 수치이다. 예를 들어, 농구에서 슛 성공률은 선수나 팀의 성과를 요약하는 기술 통계량이다. 이 숫자는 성공한 슛의 수를 시도한 슛의 수로 나눈 값으로, 여러 개의 개별 사건을 요약하거나 설명한다. 평점 평균 또한 학생의 전반적인 성과를 설명하는 단일 숫자이다.[6]

데이터 세트를 설명하기 위해 일반적으로 사용되는 지표에는 중심 경향 지표와 변동성 또는 분산 지표가 있다. 중심 경향 지표에는 평균, 중앙값, 최빈값이 있으며, 변동성 지표에는 표준 편차 (또는 분산), 변수의 최솟값과 최댓값, 첨도, 왜도가 있다.[12]

''N''개의 데이터 x_1,\ x_2,\ \dots,\ x_N에 대한 통계량을 고려할 때, 평균값 \mu와 평균값 주위의 ''m''차 중심 모멘트[16] \mu_m은 다음과 같이 정의된다.

::\mu = \frac{1}{\,N\,} \sum_{i = 1}^N x_i

::\mu_m = \frac{1}{\,N\,} \sum_{i = 1}^N (x_i - \mu)^m \quad\ (m = 2, 3, \cdots)

4. 1. 중심 경향 통계량

기술 통계학에서 중심 경향은 데이터가 어떤 값에 집중되는지를 나타내는 척도이다. 중심 경향을 나타내는 통계량에는 다음과 같은 것들이 있다.[12]

  • '''평균''': 모든 데이터 값을 더한 후 데이터 개수로 나눈 값이다. 정규 분포에서는 평균과 분산 또는 표준 편차로 분포를 설명할 수 있다.
  • '''중앙값''': 데이터를 크기 순서대로 나열했을 때, 가장 가운데에 위치하는 값이다. 데이터 개수가 짝수일 경우, 가운데 두 값의 평균을 사용한다. 이상치의 영향을 적게 받는다.
  • '''최빈값''': 데이터 중에서 가장 많이 나타나는 값이다. 도수 분포에서 가장 높은 도수를 나타내는 값이다.


정규 분포에서 크게 벗어난 경우에는, 중앙값, 사분위수, 최댓값, 최솟값 및 최빈값과 같이 좀 더 강건한 통계량이 사용된다. "강건"하다는 것은 분포의 비대칭성이나 이상치 등의 영향을 받기 어렵다는 것을 의미한다.[17] 예를 들어, 노동자 1인당 연수입은 소득이 가장 적어도 0 미만이 될 수 없는 반면, 고소득자는 수십억 원의 연수입을 벌 수 있다. 이 경우 소득 분포는 고소득자 때문에 오른쪽으로 극단적으로 꼬리를 끄는 비대칭적인 분포가 된다. 평균은 이러한 극단적인 값의 영향을 받아 분포의 대표값으로 적절하지 않게 된다. 중앙값이나 최빈값은 아무리 튀는 값이라도 하나의 예로만 취급되므로, 대다수의 사람이 체감하는 값에 더 가까운 값을 나타낼 수 있다.

4. 2. 산포도 통계량

데이터가 퍼져 있는 정도를 나타내는 통계량은 다음과 같다.[12]

  • '''분산''': 데이터가 평균으로부터 떨어진 정도를 나타내는 값이다.
  • '''표준 편차''': 분산의 양의 제곱근이다.
  • '''범위''': 최댓값과 최솟값의 차이이다.
  • '''사분위 범위''': 제3사분위수와 제1사분위수의 차이이다.


''N''개의 데이터 x_1,\ x_2,\ \dots,\ x_N에 대한 분산과 표준편차는 다음과 같이 정의된다.

: 분산: \sigma^2 = \mu_2

: 표준 편차: \sigma = \sqrt{\mu_2}

여기서 \mu_m은 평균값 \mu 주위의 ''m''차 중심 모멘트[16]이며 다음과 같다.

::\mu = \frac{1}{\,N\,} \sum_{i = 1}^N x_i

::\mu_m = \frac{1}{\,N\,} \sum_{i = 1}^N (x_i - \mu)^m \quad\ (m = 2, 3, \cdots)

집단을 값의 크기로 4등분할 때, 그 경계가 되는 값을 사분위수라고 한다. x(N+3)/4를 제1사분위점, x(3N+1)/4를 제3사분위점이라고 하며, 제2사분위점은 중앙값이다.

집단에 포함된 가장 작은 값과 가장 큰 값의 차이를 범위라고 하며, 대표값으로 사용할 수 있다.

이러한 통계량을 시각화하기 위해 상자 그림을 사용한다.

4. 3. 분포 형태 통계량

단변량 분석에서 분포의 모양은 왜도첨도와 같은 지수를 통해 설명될 수 있다.[1]

  • '''왜도'''는 3차 중심 모멘트로부터 구해지는 통계량으로, 분포의 좌우 비대칭 정도를 나타낸다.

::\gamma_1 = \mu_3 / \sigma^3

  • '''첨도'''는 4차 중심 모멘트로부터 구해지는 통계량으로, 분포의 뾰족함(꼬리의 넓이)을 나타낸다.

::\gamma_2 = \mu_4 / \sigma^4 - 3

: 단, 3을 빼지 않는 정의도 있다.

5. 통계 분석에서의 활용

기술 통계는 표본 및 관측치에 대한 간단한 요약을 제공하며, 이는 정량적(요약 통계량)이거나 시각적(그래프)일 수 있다. 이러한 요약은 광범위한 통계 분석의 초기 설명을 구성하거나, 특정 조사에 대해 충분할 수 있다.[6]

기초적인 기술 통계 분석에는 평균, 표준편차 등과 같은 수치나 산점도, 막대그래프와 같은 그래픽적 표현이 있다. 이러한 기초적인 기술 통계 분석은 추론통계같은 복잡한 통계 분석뿐만 아니라 빈도분석, 기술분석, 상관분석 등에서도 기본이 된다.

비즈니스 세계에서 기술 통계는 다양한 유형의 데이터에 대한 유용한 요약을 제공한다. 예를 들어, 투자자와 중개인은 향후 더 나은 투자 결정을 내리기 위해 투자에 대한 경험적 및 분석적 분석을 수행하여 반환 행동에 대한 과거 기록을 사용할 수 있다.

5. 1. 사례 연구: 농구 슛 성공률

농구에서 슛 성공률은 선수 또는 팀의 성과를 요약하는 기술 통계량이다. 이 숫자는 성공한 슛의 수를 시도한 슛의 수로 나눈 값이다. 예를 들어, 33%의 슛 성공률을 보이는 선수는 3번 중 약 1번의 슛을 성공시킨다. 이 백분율은 여러 개의 개별 사건을 요약하거나 설명한다.[6]

5. 2. 사례 연구: 평점 평균 (GPA)

평점 평균은 학생의 광범위한 코스 경험에 걸쳐 일반적인 성과를 설명하는 단일 숫자이다.[6]

6. 한국 사회와 기술통계학

기술통계학은 한국 사회의 다양한 현상을 이해하고 분석하는 데 중요한 역할을 한다.

참조

[1] 서적 Introductory Statistics Wiley
[2] 간행물 Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing http://dx.doi.org/10[...] SAGE Publications, Inc 2017
[3] 서적 The Oxford Dictionary of Statistical Terms https://archive.org/[...] OUP
[4] 간행물 Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing http://dx.doi.org/10[...] SAGE Publications, Inc 2017
[5] 웹사이트 Descriptive Statistics Terms http://www.investope[...] Investopedia
[6] 웹사이트 Descriptive statistics http://www.socialres[...] 2011-03-14
[7] 서적 The Practice of Social Research https://archive.org/[...] Wadsworth
[8] 서적 Topics in Biostatistics Springer
[9] 간행물 Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing https://doi.org/10.4[...] SAGE Publications, Inc 2017
[10] 서적 The Oxford Dictionary of Statistical Terms https://archive.org/[...] OUP
[11] 간행물 Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing https://doi.org/10.4[...] SAGE Publications, Inc 2017
[12] 웹사이트 Descriptive Statistics Terms http://www.investope[...] Investopedia
[13] 웹사이트 Descriptive statistics http://www.socialres[...] 2011-03-14
[14] 서적 The Practice of Social Research https://archive.org/[...] Wadsworth
[15] 서적 Topics in Biostatistics Springer
[16] 문서 用語「''m'' 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。
[17] 서적 数学チュートリアル やさしく語る 確率統計 オーム社



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com