중심경향치
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
중심경향치는 데이터 집합을 대표하는 단일 값으로, 산술 평균, 기하 평균, 중앙값, 최빈값 등이 있다. 데이터의 집중도를 나타내며, 1차원 및 다차원 데이터에 적용될 수 있다. 변동을 최소화하는 변분 문제로 정의될 수 있으며, 평균, 중앙값, 최빈값 사이에는 관계가 존재한다. 정보 기하학에서는 발산을 최소화하는 분포로 일반화되어 최대 우도 추정과 관련된다.
더 읽어볼만한 페이지
- 통계량 - 제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다. - 통계량 - 최빈값
최빈값은 데이터 집합에서 가장 자주 나타나는 값으로, 확률 분포의 중심 경향을 나타내는 척도이며 이상치에 둔감하고 명목형 데이터에도 적용 가능하다. - 확률론 - 확률 밀도 함수
확률 밀도 함수는 연속 확률 변수의 확률 분포를 나타내는 함수로, 특정 구간에서 확률 변수가 값을 가질 확률은 해당 구간에 대한 함수의 적분으로 계산되며, 통계적 특성 계산 및 변수 변환 등에 활용되어 불확실성 모델링 및 분석에 중요한 역할을 한다. - 확률론 - 체비쇼프 부등식
체비쇼프 부등식은 확률 변수가 평균에서 얼마나 멀리 떨어져 있는지에 대한 확률의 상한을 제공하는 부등식으로, 이레네-쥘 비네메가 처음 공식화하고 체비쇼프와 안드레이 마르코프에 의해 일반화 및 증명되었으며, 확률론적 표현 외에도 측도 공간에 대한 명제로 확장될 수 있다.
중심경향치 | |
---|---|
중심 경향치 | |
정의 | 자료 전체의 중심 위치를 나타내는 통계값 |
종류 | 평균 중앙값 최빈값 |
평균 | |
정의 | 자료 값의 총합을 자료의 개수로 나눈 값 |
특징 | 모든 자료 값을 반영 극단값에 민감 |
활용 | 일상생활에서 가장 흔하게 사용되는 중심 경향치 통계 분석의 기초 자료 |
중앙값 | |
정의 | 자료를 크기 순서대로 나열했을 때, 가운데 위치하는 값 |
특징 | 극단값에 덜 민감 자료의 개수가 짝수일 경우, 가운데 두 값의 평균을 사용 |
활용 | 극단값이 존재하는 경우, 자료의 중심 경향을 더 잘 나타냄 소득, 자산 등 |
최빈값 | |
정의 | 자료 중에서 가장 많이 나타나는 값 |
특징 | 범주형 자료에도 적용 가능 자료의 분포 형태를 파악하는 데 유용 |
활용 | 선호도 조사, 상품 판매량 분석 등 |
추가 정보 | |
다른 종류 | 기하 평균 조화 평균 가중 평균 |
2. 중심경향치의 종류
중심경향치는 자료의 중심을 나타내는 값으로, 자료 전체를 대표한다. 여러 종류의 중심경향치가 있으며, 자료의 특성에 맞는 것을 선택해야 한다.
그림 | 설명 |
---|---|
집중도가 높은 중심경향치를 보여주는 예시 | |
집중도가 낮은 중심경향치를 보여주는 예시 |
다차원 데이터에도 중심경향치를 적용할 수 있지만, 각 차원별로 독립적으로 계산하는 것은 아니며, 결과가 다차원 공간의 회전에 불변하지 않을 수 있다.
- '''기하 중앙값''': 샘플 포인트 집합까지의 거리의 합을 최소화하는 점이다. 1차원 데이터의 중앙값과 동일하지만, 각 차원의 중앙값을 독립적으로 취하는 것과는 다르다. 다른 차원의 다른 리스케일링에 불변하지 않는다.
- '''제곱 평균'''(제곱근 평균 제곱(RMS)이라고도 함): 공학에서는 유용하지만, 통계에서는 분포에 음수 값이 포함된 경우 분포의 중심을 잘 나타내지 못하므로 자주 사용되지 않는다.
- '''단순 심플렉스 깊이''': 주어진 분포에서 꼭짓점이 있는 임의로 선택된 단순 심플렉스가 주어진 중심을 포함할 확률이다.
- '''튜키 중앙값''': 이를 포함하는 모든 반공간이 많은 샘플 포인트를 포함하는 속성을 가진 점이다.
2. 1. 1차원 데이터에 적용되는 중심경향치
중심경향치는 집중값 또는 중심값으로 표현하기도 한다. 중심값은 실험 결과를 대표하는 집중값으로 산술 평균, 기하 평균, 중앙값, 최빈값 따위가 있으며 이들을 같이 다룬다.[1]다음은 1차원 데이터에 적용할 수 있다. 상황에 따라 중심 경향치를 계산하기 전에 데이터를 변환하는 것이 적절할 수 있는데, 예를 들어 값을 제곱하거나 로그를 취하는 것이다. 변환이 적절한지 여부와 변환해야 하는 것은 분석 중인 데이터에 따라 크게 달라진다.[1]
- '''산술 평균'''(또는 간단히 평균): 모든 측정값의 합을 데이터 집합의 관측 수로 나눈 값이다.[1]
- '''중앙값''': 데이터 집합의 상위 절반과 하위 절반을 구분하는 중간 값이다. 중앙값과 최빈값은 서열 데이터에 사용할 수 있는 유일한 중심 경향 척도이며, 여기에서 값은 서로 상대적으로 순위가 매겨지지만 절대적으로 측정되지는 않는다.[1]
- '''최빈값''': 데이터 집합에서 가장 빈번한 값이다. 이는 순전히 정성적인 범주 할당을 갖는 명목 데이터에 사용할 수 있는 유일한 중심 경향 척도이다.[1]
- '''일반화 평균''': 피타고라스 평균의 일반화로, 지수로 지정된다.[1]
- '''기하 평균''': 데이터 값의 곱의 ''n''제곱근이며, 데이터 값이 ''n''개 있다. 이 척도는 엄격하게 양의 척도로 측정된 데이터에 대해서만 유효하다.[1]
- '''조화 평균''': 데이터 값의 역수의 산술 평균의 역수이다. 이 척도는 엄격하게 양수 또는 음수의 척도로 측정된 데이터에 대해서만 유효하다.[1]
- '''가중 산술 평균''': 특정 데이터 요소에 가중치를 적용하는 산술 평균이다.[1]
- '''절단 평균'''(또는 트리밍 평균): 가장 높고 낮은 데이터 값의 특정 수 또는 비율을 버린 후의 데이터 값의 산술 평균이다.[1]
- '''사분위간 평균''': 사분위 범위 내의 데이터를 기반으로 하는 절단 평균이다.[1]
- '''중간 범위''': 데이터 집합의 최대값과 최소값의 산술 평균이다.[1]
- '''중간 경첩''': 첫 번째 및 세 번째 사분위수의 산술 평균이다.[1]
- '''준산술 평균''': 연속 단사 함수로 지정된 일반화 평균의 일반화이다.[1]
- '''삼중 평균''': 중앙값과 두 사분위수의 가중 산술 평균이다.[1]
- '''윈저화 평균''': 극단값을 중앙값에 더 가까운 값으로 대체하는 산술 평균이다.[1]
3. 변분 문제로서의 중심경향치
몇몇 중심 경향성 척도는 변분법의 의미에서 변분 문제를 해결하는 것으로 특징지을 수 있다. 즉, 중심으로부터의 변동을 최소화하는 것이다. 통계적 분산의 척도가 주어지면, 변동을 최소화하는 중심 경향성 척도를 묻는 것이다. 이는 중심으로부터의 변동이 중심의 모든 선택 중에서 최소가 되도록 하는 것이다. 간단히 말해 "분산은 위치보다 앞선다"고 할 수 있다. 이러한 척도는 처음에 1차원에서 정의되지만, 여러 차원으로 일반화될 수 있다. 이 중심은 유일할 수도, 그렇지 않을 수도 있다. Lp 공간의 의미에서 대응 관계는 다음과 같다.
관련된 함수는 각각 0-"노름", 1-노름, 2-노름, ∞-노름인 p-노름이라고 불린다. L0 공간에 해당하는 함수는 노름이 아니므로 종종 따옴표를 붙여 0-"노름"이라고 한다.
수식에서, (유한) 데이터 집합 X가 주어진 경우, 이를 벡터 x = (x1,…,xn)로 간주하면, 점 c = (c,…,c)에 대한 분산은 x에서 상수 벡터 c까지의 "거리"로, p-노름으로 나타낸다 (점의 수 n으로 정규화).
:
p = 0 및 p = ∞에 대해 이러한 함수는 각각 p → 0 및 p → ∞로의 극한을 취하여 정의된다. p = 0의 경우, 극한 값은 00 = 0 및 a0 = 0 또는 a ≠ 0이므로 차이가 단순히 같음이 되어 0-노름은 "같지 않은" 점의 수를 계산한다. p = ∞의 경우, 가장 큰 숫자가 지배적이므로 ∞-노름은 최대 차이가 된다.
4. 평균, 중앙값, 최빈값의 관계
중심경향치는 집중값 또는 중심값으로 표현하기도 한다. 중심값은 실험 결과를 대표하는 집중값으로 산술 평균, 기하 평균, 중앙값, 최빈값 따위가 있으며 이들을 같이 다룬다.
단봉 분포의 경우 다음과 같은 경계가 알려져 있으며 이는 날카롭다.[4]
: