맨위로가기

평균

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

평균은 주어진 데이터 집합의 대표값을 나타내는 여러 방법들을 포괄하는 개념이다. 가장 널리 사용되는 산술 평균은 모든 값의 합을 값의 개수로 나눈 값이며, 기하 평균은 값들의 곱의 n제곱근으로 계산된다. 조화 평균은 값의 역수의 평균의 역수로 정의된다. 가중 평균은 각 데이터 값에 중요도를 부여하여 계산하며, 절단 평균은 극단값을 제거하여 계산한다. 멱평균, f-평균과 같은 일반화된 평균도 존재하며, 중앙값, 최빈값 등도 평균의 일종으로 간주된다. 평균은 함수의 평균으로도 확장될 수 있으며, 통계학에서는 모평균과 표본 평균으로 구분된다. 평균은 데이터 요약과 비교에 유용하지만, 극단값에 민감하고 데이터 분포의 특성을 제대로 반영하지 못할 수 있다는 한계가 있다. 한국 사회에서 평균은 사회 현황을 파악하는 데 활용되지만, 소득 불평등과 같은 문제에서는 평균의 한계를 인지해야 한다. 평균 개념은 16세기부터 발전해 왔으며, 천문학, 해상 무역 등 다양한 분야에서 활용되어 왔다.

더 읽어볼만한 페이지

  • 평균 - 제곱평균제곱근
    제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다.
  • 평균 - 조화 평균
    조화 평균은 양의 실수들의 역수의 산술 평균의 역수로 정의되며, 작은 값에 민감하게 반응하여 비율이나 비를 포함하는 상황에서 유용하게 활용되는 평균의 한 종류이다.
  • 통계학 용어 - 퍼센트 포인트
    퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다.
  • 통계학 용어 - 편차
    편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.
평균

2. 여러 가지 평균

산술 평균, 기하 평균, 조화 평균은 통틀어 ''피타고라스 평균''이라고 불린다.[1]

대부분의 평균은 다음의 속성을 공유한다.


  • 단조성: 두 숫자 목록 A와 B가 같은 길이를 갖고, 목록 A의 각 항목이 목록 B의 해당 항목보다 크거나 같으면, 목록 A의 평균은 목록 B의 평균보다 크거나 같다.
  • 선형 동차성: 목록의 모든 숫자에 동일한 양수를 곱하면, 그 평균도 동일한 인자로 변경된다.
  • 순열 불변성: 대부분의 평균 유형은 모든 항목이 평균값을 결정하는 데 동일하게 중요하며 목록에서의 위치는 무관하다. 즉, (1, 2, 3, 4, 6)의 평균은 (3, 2, 6, 4, 1)의 평균과 동일하다.


일부 유형의 평균에서는, 평균을 결정하기 전에 목록의 항목에 서로 다른 가중치가 할당된다. 여기에는 가중 산술 평균, 가중 기하 평균, 가중 중앙값이 포함된다. 또한, 일부 유형의 이동 평균의 경우, 항목의 가중치는 목록에서의 위치에 따라 달라진다.

중앙값의 추정치로 산술 평균 외에 최빈값, 중앙값, 중간 범위가 자주 사용된다.

값 { 1, 2, 2, 3, 4, 7, 9 }의 일반적인 평균 비교
유형설명예시결과
산술 평균데이터 집합의 값의 합을 값의 개수로 나눈 값(1+2+2+3+4+7+9) / 74
중앙값데이터 집합의 큰 부분과 작은 부분을 구분하는 중간 값1, 2, 2, 3, 4, 7, 93
최빈값데이터 집합에서 가장 빈번하게 나타나는 값1, 2, 2, 3, 4, 7, 92
중간 범위집합의 가장 높은 값과 가장 낮은 값의 산술 평균(1+9) / 25



두 개의 로그 정규 분포산술 평균, 중앙값, 최빈값 비교 (서로 다른 왜도)


더욱 정교한 평균으로는 트리미안, 트리메디안, 정규화 평균이 있다.[1]

일반화된 f-평균을 사용하여 자신만의 평균을 만들 수 있다.

:y = f^{-1}\left(\frac{1}{n}\left[f(x_1) + f(x_2) + \cdots + f(x_n)\right]\right)

여기서 ''f''는 모든 가역 함수이다. 조화 평균은 ''f''(''x'') = 1/''x''를, 기하 평균은 ''f''(''x'') = log ''x''를 사용하여 이 방식을 보여주는 예시이다.

하지만, 이러한 평균 생성 방법은 모든 평균을 포괄하기에 충분히 일반적이지 않다.[2] 평균을 정의하는 더 일반적인 방법[2]은 각 인수가 연속 함수이고, 각 인수에 대해 엄격하게 증가하며, 대칭(인수의 순열에 불변)인 인수의 목록에 대한 모든 함수 ''g''(''x''1, ''x''2, ..., ''x''''n'')을 사용한다. 평균 ''y''는 목록의 각 멤버를 대체했을 때 동일한 함수 값을 갖는 값이다. 즉, ''g''(''y'', ''y'', ..., ''y'') = ''g''(''x''1, ''x''2, ..., ''x''''n'')이다. 이 가장 일반적인 정의는 동일한 요소 목록의 평균이 해당 요소 자체라는 모든 평균의 중요한 속성을 여전히 포착한다.

  • ''g''(''x''1, ''x''2, ..., ''x''''n'') = ''x''1+''x''2+ ··· + ''x''''n'' : 산술 평균
  • ''g''(''x''1, ''x''2, ..., ''x''''n'') = ''x''1''x''2···''x''''n'' (목록 요소가 양수일 때) : 기하 평균
  • ''g''(''x''1, ''x''2, ..., ''x''''n'') = (''x''1−1+''x''2−1+ ··· + ''x''''n''−1)−1 (목록 요소가 양수일 때) : 조화 평균[2]

2. 1. 산술 평균 (Arithmetic Mean)

arithmetic mean영어이라고도 한다. 산술 평균은 가장 널리 사용되는 평균으로, 일반적으로 '평균'이라고 하면 산술 평균을 의미한다. 데이터 집합의 모든 값을 더한 후 값의 개수로 나눈 값이다.[14]

: \bar{x} = \frac{1}{n}\cdot \sum_{i=1}^n{x_i}

산술 평균은 중앙값이나 최빈값과 종종 혼동되곤 한다. 산술 평균은 값들이나 분포의 산술적인 평균을 의미하며, 기울어진 분포에서는 중앙값이나 최빈값과 보통 다르다. 예를 들어 평균 수입의 경우, 적은 수의 사람이 매우 큰 수입을 갖고 있어 평균 이하의 사람 수가 더 많다. 하지만 중앙값의 경우 정확히 절반은 더 큰 수입을 갖고 나머지 절반은 더 작은 수입을 갖는다. 최빈값의 경우에는 가장 많이 나타나는 값을 말하므로 수입이 적은 쪽에 가깝다(수입이 적은 사람이 많으므로). 중앙값과 최빈값은 종종 데이터에 대한 직관적인 척도가 된다.

지수 분포푸아송 분포 등과 같이 한쪽으로 기울어진 많은 분포는 평균을 통해 그 성질을 알 수 있다. 목록에 있는 모든 숫자가 동일하다면, 그들의 평균 또한 이 숫자와 같다. 이러한 속성은 다양한 유형의 평균에서 공유된다.

값 { 1, 2, 2, 3, 4, 7, 9 }의 일반적인 평균 비교
유형설명예시결과
산술 평균데이터 집합의 값의 합을 값의 개수로 나눈 값: \scriptstyle\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i(1+2+2+3+4+7+9) / 74
중앙값데이터 집합의 큰 부분과 작은 부분을 구분하는 중간 값1, 2, 2, 3, 4, 7, 93
최빈값데이터 집합에서 가장 빈번하게 나타나는 값1, 2, 2, 3, 4, 7, 92
중간 범위집합의 가장 높은 값과 가장 낮은 값의 산술 평균(1+9) / 25



이름방정식 또는 설명최적화 문제에 대한 해법
산술 평균\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{1}{n} (x_1 + \cdots + x_n)\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n (x - x_i)^2


2. 2. 기하 평균 (Geometric Mean)

'''기하 평균'''(geometric mean영어)은 여러 개의 수를 곱한 뒤, 그 개수만큼 거듭제곱근을 취해 얻는 평균값이다. 주로 비율이나 변화율의 평균을 구할 때 사용된다. 예를 들어, 연평균 경제 성장률이나 물가 상승률 등을 계산할 때 기하 평균을 사용한다.

기하 평균은 다음과 같이 정의된다.

: \bar{x} = \sqrt[n]{\prod_{i=1}^n{x_i}}

예를 들어, 6개의 숫자 34, 27, 45, 55, 22, 34의 기하 평균은 다음과 같이 계산된다.

:(34×27×45×55×22×34)1/6 = 1,699,493,4001/6 ≈ 34.545

금융에서는 평균 백분율 수익률을 구할 때 기하 평균이 사용된다. 연간 수익률의 경우, 이를 복리 연간 성장률(CAGR)이라고 한다. 예를 들어, 첫 해의 투자 수익률이 -10%이고 둘째 해의 수익률이 +60%인 경우, 평균 백분율 수익률(CAGR) ''R''은 다음 방정식을 통해 구할 수 있다.

:(1 - 0.1) \times (1 + 0.6) = (1 + R) \times (1 + R)

이 방정식을 만족하는 ''R''의 값은 0.2 또는 20%이다. 즉, 2년 동안의 총 수익률은 매년 20% 성장한 것과 같다.

78년 경제 성장률이 20%, 79년 경제 성장률이 80%인 경우, 이 2년간의 평균 성장률은 \sqrt{1.2 \times 1.8}= 1.469693846\cdots 이므로 약 47%이다.

2. 3. 조화 평균 (Harmonic Mean)

조화 평균은 역수의 산술 평균의 역수로 정의되며, 속력처럼 상대적인 비를 갖는 단위의 평균을 계산하는 데 유용하다.

:\bar{x} = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}

예를 들어, 데이터 34, 27, 45, 55, 22, 34의 조화평균은 다음과 같이 구할 수 있다.

# 데이터 역수들의 합: 0.181719152307

# 1.의 역수: 5.50299727522

# 2.에 데이터의 수 6을 곱하면 조화평균 33.0179836513을 얻는다.

산술 평균, 기하 평균조화 평균은 통틀어 ''피타고라스 평균''이라고 한다.[1]

조화 평균은 다음의 최적화 문제에 대한 해법으로도 표현할 수 있다.[2]

:\underset{x \in \mathbb{R}_{\neq 0}}{\operatorname{argmin}}\, \sum_{i=1}^n \left(\frac{1}{x} - \frac{1}{x_i}\right)^2

이름방정식 또는 설명최적화 문제에 대한 해법
조화 평균\frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}\underset{x \in \mathbb{R}_{\neq 0}}{\operatorname{argmin}}\, \sum_{i=1}^n \left(\frac{1}{x} - \frac{1}{x_i}\right)^2


2. 4. 가중 평균 (Weighted Mean)

가중 산술 평균은 데이터 값마다 중요도나 영향력에 따라 가중치를 부여하여 계산하는 평균이다. 가중치는 백분율, 빈도, 중요도 점수 등 다양한 형태로 나타낼 수 있다.

예를 들어, 가중 최소제곱법에서는 오차가 작은 데이터에 큰 가중치를 부여한 잔차의 가중 평균을 최소화[16]함으로써 가능도의 최대화를 꾀한다.

각 값 x_i에 가중치 w_i가 주어질 때 가중 평균은 다음과 같이 정의된다.

: \bar{x} = \frac{\sum_{i=1}^n{w_i \cdot x_i}}{\sum_{i=1}^n {w_i}}

:\cfrac{w_1x_1+\dots+w_nx_n}{w_1+\dots+w_n}

만약 모든 가중치가 동일하면, 이는 일반적인 산술 평균이 된다.

가중치 w_i는 부분 표본에 대한 한계(bound영어)를 나타낸다. 다른 응용에서는 각 표본이 평균에 미치는 영향을 잰다.

기하 평균에 대한 가중 평균은 다음과 같이 정의된다.

:\left({x_1}^{w_1} \dotsb {x_n}^{w_n}\right)^{1/p} (p=\sum_{i=1}^n w_i)

2. 5. 절단 평균 (Truncated Mean)

데이터에 너무 크거나 작은 값이 포함되어 부정확한 값으로 인해 자료가 오염될 수 있는 경우, 절단 평균을 사용한다. 절단 평균은 데이터에서 가장 큰 값이나 작은 값 쪽을 "잘라내고" 산술 평균을 계산하는 방식이다. 일반적으로 양쪽에서 잘라내는 범위는 동일하게 설정하며, 잘라낸 값의 개수는 전체 자료 수에 대한 백분율로 나타낸다.

극단값(이상값)이 극히 소수인 경우, 최대값과 최소값을 제외한 절단 평균(트림 평균)을 사용하기도 한다. 평균이 중앙값, 최빈값, 중점값과 크게 차이가 나는 경우에는 절단 평균을 포함한 다른 대표값을 고려하는 것이 좋다. 예를 들어, 스포츠 경기에서 심판들이 점수를 매길 때 최고점과 최저점을 제외하고 평균을 내는 경우가 절단 평균의 예시이다.

2. 6. 사분 평균 (Interquartile Mean)

사분평균은 절단평균의 한 예로, 자료값의 아래 1/4, 위 1/4을 제외하고 산술평균을 구하는 방식이다.[1] 자료들이 정렬되어 있다고 가정할 때, 사분평균은 다음과 같이 계산된다.

: \bar{x} = {2 \over n} \sum_{i=(n/4)+1}^{3n/4}{x_i}

2. 7. 멱평균 (Power Mean)

'''멱평균'''(power mean영어)은 일반화된 평균 또는 횔더 평균이라고도 불리며, 이차 평균, 산술 평균, 기하 평균, 조화 평균을 모두 아우르는 추상적인 개념이다. 멱평균은 다음과 같이 정의된다.

:\bar{x}(m) = \sqrt[m]{\frac{1}{n}\cdot\sum_{i=1}^n{x_i^m}}

''m'' 값에 따라 다음과 같은 평균값을 얻을 수 있다.

만약 목록에 있는 모든 숫자가 동일하다면, 그 평균은 그 숫자와 같다. 이 속성은 여러 유형의 평균들이 공유하는 특징이다.

2. 8. f-평균 (Generalized f-mean)

일반화된 f-평균은 일반화된 평균을 더욱 확장한 형태이다. 가역 함수 f를 사용하여 다양한 평균을 정의할 수 있다.

:\bar{x} = f^{-1}\left({\frac{1}{n}\cdot\sum_{i=1}^n{f(x_i)}}\right)

가역함수 f를 적절히 선택하면 다음과 같은 평균을 얻을 수 있다.

일반화된 f-평균을 사용하면 자신만의 평균을 만들 수도 있다.

:y = f^{-1}\left(\frac{1}{n}\left[f(x_1) + f(x_2) + \cdots + f(x_n)\right]\right)

여기서 ''f''는 임의의 가역 함수이다. 예를 들어, ''f''(''x'') = 1/''x''를 사용하면 조화 평균을, ''f''(''x'') = log ''x''를 사용하면 기하 평균을 얻을 수 있다.

2. 9. 중앙값 (Median)

중앙값은 숫자를 크기 순으로 정렬했을 때 가운데 위치하는 값이다. 숫자의 개수가 짝수일 경우, 가운데 두 숫자의 산술 평균을 구한다.[14]

중앙값을 구하려면, 먼저 목록의 각 요소를 크기 순으로 정렬하고, 가장 큰 값과 가장 작은 값의 쌍을 반복적으로 제거한다. 마지막에 하나의 값이 남으면 그 값이 중앙값이고, 두 개의 값이 남으면 그 두 값의 산술 평균이 중앙값이다.

예를 들어, 목록 1, 7, 3, 13을 크기 순으로 정렬하면 1, 3, 7, 13이 된다. 1과 13을 제거하면 3, 7이 남는다. 이 목록에는 두 개의 요소가 있으므로 중앙값은 (3 + 7)/2 = 5이다.

중앙값은 산술 평균과 혼동되기도 하지만, 기울어진 분포에서는 서로 다른 값을 가질 수 있다. 예를 들어, 평균 소득의 경우 소수의 사람이 매우 큰 수입을 가지므로 평균 이하의 사람 수가 더 많다. 하지만 중앙값의 경우 정확히 절반은 더 큰 수입을 갖고 나머지 절반은 더 작은 수입을 갖는다.

다음 표는 값 { 1, 2, 2, 3, 4, 7, 9 }의 일반적인 평균을 비교한 것이다.

값 { 1, 2, 2, 3, 4, 7, 9 }의 일반적인 평균 비교
유형설명예시결과
산술 평균데이터 집합의 값의 합을 값의 개수로 나눈 값(1+2+2+3+4+7+9) / 74
중앙값데이터 집합의 큰 부분과 작은 부분을 구분하는 중간 값1, 2, 2, 3, 4, 7, 93
최빈값데이터 집합에서 가장 빈번하게 나타나는 값1, 2, 2, 3, 4, 7, 92
중간 범위집합의 가장 높은 값과 가장 낮은 값의 산술 평균(1+9) / 25



다음 표는 다양한 평균과 최적화 문제에 대한 해법을 나타낸다.

이름방정식 또는 설명최적화 문제에 대한 해법
산술 평균\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{1}{n} (x_1 + \cdots + x_n)\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n (x - x_i)^2
중앙값데이터 집합의 상위 절반과 하위 절반을 구분하는 중간 값; 데이터 집합에 짝수 개의 점이 포함된 경우 고유하지 않을 수 있음\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n>x - x_i|
기하 중앙값\mathbb{R}^d의 점에 대한 회전 불변량 중앙값의 확장\underset{\vec{x} \in \mathbb{R}^d}{\operatorname{argmin}}\, \sum_{i=1}^n\vec{x} - \vec{x}_i_2
터키 중앙값\mathbb{R}^d의 점에 대한 중앙값의 또 다른 회전 불변량 확장—터키 깊이를 최대화하는 점\underset{\vec{x} \in \mathbb{R}^d}{\operatorname{argmax}}\, \underset{\vec{u} \in \mathbb{R}^d}{\operatorname{min}} \, \sum_{i=1}^n \left(\begin{cases}1, \text{ if }(\vec{x}_i-\vec{x})\cdot\vec{u} \geq 0 \\ 0, \text{ otherwise}\end{cases}\right)


2. 10. 최빈값 (Mode)

최빈값은 데이터 집합에서 가장 많이 나타나는 값이다. 예를 들어, (1, 2, 2, 3, 3, 3, 4)에서 최빈값은 3이다.

최빈값은 두 개 이상일 수도 있다. 두 개 이상의 숫자가 같은 횟수로 나타나고 다른 숫자보다 더 자주 나타나는 경우가 있기 때문이다. 이 경우 최빈값에 대한 명확한 정의는 없으며, 일부 학자들은 여러 개가 모두 최빈값이라고 하고, 일부는 최빈값이 없다고 말하기도 한다.

값 { 1, 2, 2, 3, 4, 7, 9 }의 일반적인 평균 비교
유형설명예시결과
최빈값데이터 집합에서 가장 빈번하게 나타나는 값1, 2, 2, 3, 4, 7, 92



최빈값은 데이터 분포의 형태를 파악하는 데 유용하다. 예를 들어, 설문조사에서 가장 많이 선택된 항목이나 가장 많이 판매된 상품을 파악할 때 사용될 수 있다.

2. 11. 함수의 평균

미적분학, 특히 다변수 미적분학에서 함수의 평균은 정의역에서 함수값을 평균한 것으로 정의한다. 일변수에서 구간 (''a,b'')에서 정의된 함수 ''f''(''x'')의 평균은

:\bar{f}=\frac{1}{b-a}\int_a^bf(x)dx.

로 정의한다(평균값 정리 참조). 다변수의 경우 유클리드 공간에 대해 컴팩트한 정의역 ''U''에서 평균은

:\bar{f}=\frac{1}{\hbox{Vol}(U)}\int_U f.

로 정의한다.

이것은 산술 평균의 일반화가 되며, 또한 ''f''에 대한 기하 평균

:\exp\left(\frac{1}{\hbox{Vol}(U)}\int_U \log f\right)

로 일반화할 수 있다.

데이터가 구간에서 연속적으로 분포할 때, 그 산술 평균은 적분

:\frac{1}{b-a} \int_a^b x(t)\,dt

로 정의된다. 이는 이산 분포의 산술 평균에 대해 무한 개의 평균을 산출하는 연산을 극한을 통해 나타낸 것이다.

3. 평균의 통계학적 의미

통계학에서 평균은 보통 산술 평균을 가리키며, 데이터 값에서 산술적으로 계산하여 얻을 수 있는 통계 지표 값 중 하나이다. 통계학에서 평균은 모집단의 특성을 나타내는 모평균과 표본의 특성을 나타내는 표본 평균으로 구분된다.


  • 모평균: 모집단의 산술 평균을 의미하며, \mu로 표기한다.
  • 표본 평균: 추출한 표본(모집단의 부분집합)의 산술 평균을 의미하며, m으로 표기한다.


산술 평균중앙값, 최빈값, 중간 범위와 함께 변동성을 최소화하는 통계적 추정치로 사용될 수 있다.

이름방정식 또는 설명최적화 문제에 대한 해법
산술 평균\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{1}{n} (x_1 + \cdots + x_n)\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n (x - x_i)^2
중앙값데이터 집합의 상위 절반과 하위 절반을 구분하는 중간 값; 데이터 집합에 짝수 개의 점이 포함된 경우 고유하지 않을 수 있음\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n>x - x_i|
기하 중앙값\mathbb{R}^d의 점에 대한 회전 불변량 중앙값의 확장\underset{\vec{x} \in \mathbb{R}^d}{\operatorname{argmin}}\, \sum_{i=1}^n\vec{x} - \vec{x}_i_2
터키 중앙값\mathbb{R}^d의 점에 대한 중앙값의 또 다른 회전 불변량 확장—터키 깊이를 최대화하는 점\underset{\vec{x} \in \mathbb{R}^d}{\operatorname{argmax}}\, \underset{\vec{u} \in \mathbb{R}^d}{\operatorname{min}} \, \sum_{i=1}^n \left(\begin{cases}1, \text{ if }(\vec{x}_i-\vec{x})\cdot\vec{u} \geq 0 \\ 0, \text{ otherwise}\end{cases}\right)
최빈값데이터 집합에서 가장 빈번한 값\underset{x \in \mathbb{R}}{\operatorname{argmax}}\, \sum_{i=1}^n \left(\begin{cases}1, \text{ if }x = x_i \\ 0, \text{ if }x \neq x_i\end{cases}\right)
기하 평균\sqrt[n]{\prod_{i=1}^n x_i} = \sqrt[n]{x_1 \cdot x_2 \dotsb x_n}\underset{x \in \mathbb{R}_{> 0}}{\operatorname{argmin}}\, \sum_{i=1}^n (\ln(x) - \ln(x_i))^2,\qquad \text{if }x_i > 0\,\forall\, i \in \{1,\dots,n\}
조화 평균\frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}}\underset{x \in \mathbb{R}_{\neq 0}}{\operatorname{argmin}}\, \sum_{i=1}^n \left(\frac{1}{x} - \frac{1}{x_i}\right)^2
역조화 평균\frac{x_1^2 + x_2^2 + \cdots + x_n^2}\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n x_i(x - x_i)^2
레머 평균\frac{\sum_{i=1}^n x_i^p}{\sum_{i=1}^n x_i^{p-1}}\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n x_i^{p-1}(x - x_i)^2
제곱 평균
(또는 RMS)
\sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2} = \sqrt{\frac{1}{n}\left(x_1^2 + x_2^2 + \cdots + x_n^2\right)}\underset{x \in \mathbb{R}_{\geq 0}}{\operatorname{argmin}}\, \sum_{i=1}^n (x^2 - x_i^2)^2
세제곱 평균\sqrt[3]{\frac{1}{n} \sum_{i=1}^{n} x_i^3} = \sqrt[3]{\frac{1}{n}\left(x_1^3 + x_2^3 + \cdots + x_n^3\right)}\underset{x \in \mathbb{R}_{\geq 0}}{\operatorname{argmin}}\, \sum_{i=1}^n (x^3 - x_i^3)^2,\qquad \text{if }x_i \geq 0\,\forall\, i \in \{1,\dots,n\}
일반화 평균\sqrt[p]{\frac{1}{n} \cdot \sum_{i=1}^n x_{i}^p}\underset{x \in \mathbb{R}_{\geq 0}}{\operatorname{argmin}}\, \sum_{i=1}^n (x^p - x_i^p)^2,\qquad \text{if }x_i \geq 0\,\forall\, i \in \{1,\dots,n\}
준산술 평균 f^{-1}\left(\frac{1}{n} \sum_{k=1}^{n}f(x_k) \right)\underset{x \in \operatorname{dom}(f)}{\operatorname{argmin}}\, \sum_{i=1}^n (f(x) - f(x_i))^2,\qquad \text{if } f는 단조 함수이다
가중 평균\frac{ \sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \sum_{i=1}^n w_i(x - x_i)^2
절단 평균가장 높고 낮은 데이터 값의 특정 수 또는 비율이 버려진 후 데이터 값의 산술 평균
사분위간 평균절단 평균의 특수한 경우로, 사분위간 범위를 사용한다. 중앙값의 양쪽에 동일한 거리에 있지만 반대쪽에 있는 사분위수(종종 데실 또는 백분위수)에 대해 작동하는 사분위수 절단 평균의 특수한 경우이다.
중간값\frac{1}{2}\left(\max x + \min x\right)\underset{x \in \mathbb{R}}{\operatorname{argmin}}\, \underset{i \in \{1,\dots,n\}}{\operatorname{max}}\,>x - x_i|
윈저화 평균절단 평균과 유사하지만 극단적인 값을 삭제하는 대신 나머지 가장 크고 작은 값과 같게 설정함
메도이드일부 비유사성 함수 d에 따라 집합의 모든 객체에 대한 비유사성의 최소 합계를 갖는 객체 집합 \mathcal X의 대표 객체.\underset{y \in \mathcal X}{\operatorname{argmin}} \sum_{i=1}^n d(y, x_i)


4. 평균의 활용과 한계

평균은 데이터를 요약하고 비교하는 데 유용하지만, 몇 가지 한계점도 가지고 있다. 특히, 평균은 극단값에 민감하게 반응하여 데이터의 특성을 제대로 반영하지 못할 수 있다.[12]

예를 들어, 소득이나 자산과 같이 불평등이 심한 데이터를 다룰 때는 주의해야 한다. 일부 고소득자가 평균값을 크게 끌어올려 실제 대다수의 소득과는 큰 차이가 발생할 수 있기 때문이다. 2017년 일본 국세청 조사에 따르면, 급여 소득의 산술 평균값은 423만 엔이었지만, 가장 많은 사람이 속한 소득 구간(최빈값)은 300만 엔에서 400만 엔 사이였다.[14] 이처럼 평균값만으로는 현실을 제대로 파악하기 어려울 수 있다.

이러한 경우, 중앙값이나 최빈값이 더 유용한 척도가 될 수 있다. 중앙값은 데이터를 크기 순서대로 나열했을 때 정중앙에 위치하는 값을 의미하며, 최빈값은 가장 자주 등장하는 값을 의미한다. 소득처럼 대수 정규 분포를 따르는 데이터의 경우, 기하 평균을 사용하는 것이 적절한 대표값이 될 수도 있다.[15]

데이터의 분포가 좌우 대칭이 아니거나, 극단값이 존재하는 경우에는 절사 평균(트림 평균)을 사용하는 방법도 고려해볼 수 있다. 절사 평균은 최대값과 최소값을 제외한 나머지 값들의 평균을 의미한다.

결론적으로, 평균은 유용한 통계 도구이지만, 데이터의 특성과 분포를 고려하여 신중하게 사용해야 한다. 때로는 중앙값, 최빈값, 기하 평균, 절사 평균 등 다른 대표값을 함께 고려하는 것이 데이터의 실제 의미를 파악하는 데 도움이 될 수 있다.

5. 평균의 역사

16세기에는 산술 평균추정에 사용하기 위해 2개에서 n개의 사례로 확장된 최초의 기록이 있다. 16세기 후반부터, 다양한 분야에서 측정 오차를 줄이기 위해 사용하는 일반적인 방법이 되었다.[5][6] 당시 천문학자들은 행성의 위치나 달의 지름과 같이 잡음이 섞인 측정값으로부터 실제 값을 알고 싶어 했다. 여러 측정값의 평균을 사용하여, 과학자들은 오차가 모든 측정값의 합에 비해 상대적으로 작은 수로 합산된다고 가정했다. 관측 오차를 줄이기 위해 평균을 구하는 방법은 실제로 주로 천문학에서 개발되었다.[5][7] 산술 평균의 가능한 전신은 아라비아 천문학에서 9세기에서 11세기에 사용되었고, 야금술과 항해술에서도 사용된 중앙값 (두 극단값의 평균)이다.[6]

그러나 산술 평균의 사용에 대한 다양한 오래된 모호한 언급이 있다. 4세기 텍스트에는 다음과 같이 적혀 있다:[8]

: 우선, 1부터 9까지의 숫자 시퀀스를 한 줄로 나열해야 합니다: 1, 2, 3, 4, 5, 6, 7, 8, 9. 그런 다음 이들의 양을 모두 더해야 하며, 줄에 9개의 항이 있으므로 총합의 9분의 1을 찾아 줄의 숫자 안에 자연적으로 존재하는지 확인해야 합니다. 그러면 [산술] 평균 자체에만 [합계의] 9분의 [1]이 되는 속성이 있다는 것을 알게 될 것입니다...

훨씬 더 오래된 잠재적 언급이 존재한다. 기원전 700년경부터 상인과 선박업자들이 화물과 선박의 손상(해상 손상 시 그들의 "기여")을 서로 동등하게 분담하기로 합의했다는 기록이 있다.[7] 이는 평균을 사용하여 계산되었을 수 있지만, 계산에 대한 직접적인 기록은 없는 것으로 보인다.

"average"라는 단어의 어원은 아랍어에서 찾을 수 있는데, عوار ''ʿawār''는 결함, 또는 결함이 있거나 손상된 모든 것(부분적으로 상한 상품 포함)을 의미하며, عواري ''ʿawārī''(또는 عوارة ''ʿawāra'')는 "부분적인 손상 상태인 ''ʿawār''와 관련되거나 속하는"을 의미한다. 서양 언어에서 이 단어의 역사는 지중해의 중세 해상 상업에서 시작된다. 12세기와 13세기 제노바 라틴어 ''avaria''는 "상인 해상 여행과 관련된 손해, 손실 및 비정상적인 비용"을 의미했으며, 같은 의미가 1210년 마르세유, 1258년 바르셀로나, 13세기 후반 피렌체에서도 나타난다. 15세기 프랑스어 ''avarie''는 동일한 의미를 가졌으며, 영어 "averay"(1491)와 "average"(1502)를 같은 의미로 파생시켰다. 오늘날 이탈리아어 ''avaria'', 카탈루냐어 ''avaria'' 및 프랑스어 ''avarie''는 여전히 "손해"라는 주된 의미를 가지고 있다. 영어에서 의미가 크게 변화한 것은 늦은 중세와 초기 근대 서방 상선 법률 계약의 관행에서 비롯되었는데, 그 내용은 선박이 악천후를 만나 일부 상품을 가볍고 안전하게 하기 위해 바다에 던져야 할 경우, 선박에 상품이 실린 모든 상인이 비례적으로 손실을 입어야 한다는 것이었고 (누구의 상품이 버려졌는지와 상관없이), 더 일반적으로 모든 ''avaria''에 대한 비례적 분배가 이루어졌다. 거기에서 이 단어는 영국 보험업자, 채권자 및 상인이 자산 전체 포트폴리오에 손실이 분산되고 평균적인 비율을 갖는 것에 대해 이야기하기 위해 채택되었다. 오늘날의 의미는 거기에서 발전했으며, 18세기 중반에 시작되었고 영어에서 시작되었다.[9]

해상 손해는 손상된 재산의 소유자만 부담하는 '개별 평균 손해' 또는 해상 모험에 참여한 모든 당사자가 비례적 기여를 청구할 수 있는 공동 해손이다. 공동 해손을 조정하는 데 사용된 계산 유형은 "평균"을 "산술 평균"으로 사용하는 데 기인했다.

두 번째 영어 용법은 1674년으로 거슬러 올라가며 때로는 "averish"로 표기되는데, 이는 가축 ("avers")의 소비에 적합하다고 여겨지는 밭 작물의 잔여물과 두 번째 성장이다.[10]

더 이른 시기(최소 11세기부터)에, 관련 없는 단어가 사용되었다. 이는 보안관에 대한 세입자의 일 노동 의무를 나타내는 오래된 법적 용어인 것으로 보이며, 잉글랜드 둠즈데이 북 (1085)에서 발견되는 "avera"에서 영어화되었을 것이다.

그러나 옥스퍼드 영어 사전은 독일어 ''hafen'' 항구와 아랍어 ''ʿawâr'' 손실, 손해로부터의 파생은 "완전히 제거되었으며" 이 단어는 로망스 기원을 가지고 있다고 말한다.[11]

6. 기타 평균

산술 기하 평균은 두 수의 산술 평균과 기하 평균을 반복적으로 계산하여 얻는 값으로, 두 수렴값은 일치한다. $a_0$, $b_0$를 $a_0 > b_0$를 만족하는 두 개의 음이 아닌 실수라고 하고, $a_1, a_2, \dots$; $b_1, b_2, \dots$를 다음과 같이 정의한다.

:a_{i+1}=\frac{a_i+b_i}{2}

:b_{i+1}=\sqrt{a_ib_i}

이때, 다음이 성립한다.

:\lim_{i\to\infty}a_i=\lim_{i\to\infty}b_i

이 값을 $a_0$과 $b_0$의 산술 기하 평균이라고 한다.

대수 평균은 $x(t)$가 지수 함수인 경우, 해당 산술 평균은 단말점에서의 함수의 값 $x(a)$, $x(b)$만으로 계산할 수 있으며, 그 값은 다음과 같다.

:\frac{x(b)-x(a)}{\ln\left(x(b)\right) - \ln\left(x(a)\right)}

대수 평균 온도차 등의 응용 예가 있다.

이 외에도 레머 평균, 헤로니언 평균, 아이덴트릭 평균 등 다양한 평균이 존재한다.

7. 이동 평균 (Moving Average)

이동 평균은 일일 주식 시장 가격이나 연간 온도와 같은 시계열 데이터를 부드럽게 만들어 기본 추세나 주기적인 패턴을 파악하는 데 사용되는 기법이다.[3]

가장 간단한 형태의 이동 평균은 숫자 ''n''을 선택하고 첫 ''n''개 값의 산술 평균을 구한 다음, 가장 오래된 값을 버리고 새 값을 추가하여 한 칸씩 앞으로 이동하는 방식으로 계산한다. 더 복잡한 형태는 가중 평균을 사용하며, 가중치는 다양한 주기적 행동을 강조하거나 억제하는 데 사용될 수 있다. 필터링 관련 문헌에는 어떤 가중치를 사용할지에 대한 분석이 많이 나와 있다. 디지털 신호 처리에서는 가중치 합이 1.0이 아니더라도 "이동 평균"이라는 용어를 사용하는데,[4] 이는 분석가들이 주로 추세나 주기적 행동에만 관심이 있기 때문이다.

이동 평균은 기술적 분석 등의 금융 분야, 기상, 수문을 포함한 계측 분야 등 다양한 기술 분야에서 활용된다.

참조

[1] 논문 The Generalized Hybrid Averaging Operator and its Application in Decision Making 2009
[2] 논문 Axiomatisations of the average and a further generalisation of monotonic sequences 1974
[3] 서적 Time Series Analysis: Forecasting and Control Holden-Day 1976
[4] 서적 Adaptive Filter Theory Prentice-Hall 1986
[5] 논문 Studies in the History of Probability and Statistics: VII. The Principle of the Arithmetic Mean 1958
[6] 간행물 The development of the concept of the best mean of a set of measurements from antiquity to the present day. http://www.york.ac.u[...] American Statistical Association 1971
[7] 웹사이트 Bakker, Arthur. "The early history of average values and implications for education." Journal of Statistics Education 11.1 (2003): 17-26. http://www.amstat.or[...] 2015-10-22
[8] 웹사이트 Waterfield, Robin. "The theology of arithmetic." On the Mystical, mathematical and Cosmological Symbolism of the First Ten Number (1988). page 70. https://arcaneknowle[...] 2018-11-27
[9] 웹사이트 average 2023-05-25
[10] 서적 A Collection of English Words not Generally Used http://babel.hathitr[...] H. Bruges 1674
[11] 웹사이트 2019-09
[12] 논문 Framed for Lying: Statistics as In/Artistic Proof https://resrhetorica[...] 2018-12-31
[13] 문서
[14] 웹사이트 民間給与実態統計調査結果 - 標本調査結果|国税庁 https://www.nta.go.j[...]
[15] 간행물 Pareto's law of income distribution: Evidence for Germany, the United Kingdom, and the United States https://ideas.repec.[...] EconWPA 2005
[16] 문서



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com