산술 평균
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
산술 평균은 주어진 수들의 합을 수의 개수로 나눈 값으로, 자료의 중심 경향성을 나타내는 척도이다. 통계학에서 모집단의 평균은 모평균, 표본의 평균은 표본 평균으로 구분하며, 확률 분포에서도 기댓값으로 정의된다. 산술 평균은 자료의 모든 값을 고려하여 계산되므로, 극단값에 영향을 받기 쉽고, 가중 평균이나 각도 평균과 같은 변형된 형태로도 사용된다. 산술 평균은 제곱 편차의 합을 최소화하며, 중앙값과 비교하여 자료의 분포 특성을 파악하는 데 활용된다.
더 읽어볼만한 페이지
산술 평균 | |
---|---|
일반 정보 | |
유형 | 평균 |
하위 유형 | 위치 매개변수 |
기호 | X̄ |
정의 | |
정의 | 값의 합계를 개수로 나눈 값 |
속성 | |
속성 | 합계 속성을 가짐 |
사용 | |
사용 분야 | 통계학 수학 경제학 회계 역사 인류학 기상학 |
관련 개념 | |
관련 개념 | 중심 경향값 기댓값 가중 평균 기하 평균 조화 평균 일반화 평균 |
수학적 정의 | |
공식 | {\displaystyle {\bar {x}}={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}} |
변수 설명 | "{\displaystyle x_{1},x_{2},\ldots ,x_{n}}"는 주어진 값들의 집합 n은 값들의 개수 |
2. 정의
n개의 수 가 있을 때, 이 수들의 산술 평균 A는 다음과 같이 정의된다.
:
이때, 기호 의 정의는 다음과 같다.
:
관측된 데이터 집합의 산술 평균은 각 관측 값의 합을 전체 관측 개수로 나눈 값과 같다. 기호로 나타내면, 값으로 구성된 데이터 집합의 산술 평균 는 다음 공식으로 정의된다.[2]
:
더 간단히 말하면, 산술 평균은 다음과 같이 계산할 수 있다.
:
예를 들어, 10명의 직원의 월급이 이라고 할 때, 이들의 산술 평균은 다음과 같이 계산된다.
:
2. 1. 통계학에서의 정의
통계학에서는 관측된 데이터 집합의 산술 평균을 계산할 때, 그 대상이 전체 모집단인지 아니면 모집단에서 추출된 표본인지에 따라 용어와 기호를 구분하여 사용한다.데이터 집합이 통계적 모집단(가능한 모든 관측 값으로 구성된 전체 집합)일 경우, 그 평균을 모평균(population meaneng)이라고 부르며, 일반적으로 그리스 문자 μ로 표기한다.[2]
반면, 데이터 집합이 통계적 표본(모집단의 일부 부분집합)일 경우, 그 평균을 표본 평균(sample meaneng)이라고 한다.[2] 표본 평균은 데이터 집합 에 대해 또는 ''m'' 등으로 표기하기도 한다.[2]
일반적으로 통계학에서는 다른 종류의 평균(기하 평균, 조화 평균 등)과 특별히 구별할 필요가 없을 때, 산술 평균을 단순히 '평균'이라고 부르기도 한다.
2. 2. 확률 분포에서의 정의
확률 분포에서 확률 변수가 이산적인 값을 가질 경우, 그 평균은 기댓값으로 정의되며, 이는 관측 데이터의 산술 평균과 유사한 방식으로 계산된다.확률 공간 에서 확률 변수 가 취할 수 있는 값이 많아야 셀 수 있는(가산) 개, 즉 와 같은 값들일 때(이산 확률 변수), 의 기댓값 는 다음과 같이 정의된다.
:
여기서 는 확률 변수 가 값 를 가질 확률이다. 즉, 가능한 각 값에 그 값이 나올 확률을 곱한 것들을 모두 더한 값이다.
특히 확률 변수가 취할 수 있는 값의 개수가 유한할 경우, 이 기댓값의 정의는 데이터 집합의 산술 평균 정의와 동일해진다.
연속 확률 변수의 평균(기댓값)에 대한 정의는 기댓값#연속형 확률 변수에서 더 자세히 다룬다.
3. 성질
산술 평균은 대표값으로 사용하기에 적합한 다음과 같은 주요 성질을 가진다.
- 데이터 값()과 평균()의 차이인 편차()를 모두 더하면 항상 0이 된다. 즉, 이다. 이는 평균이 잔차의 합이 0이 되는 유일한 값임을 의미한다.
- 임의의 값 와 각 데이터 값 사이의 차이를 제곱하여 모두 더한 값()을 최소로 만드는 값 는 산술 평균 이다. 이 때문에 표본 평균은 가장 낮은 제곱근 평균 오차를 가지는 최고의 단일 예측 변수로 간주되며[4], 모집단 평균의 비편향 추정량이기도 하다.
- 병진 불변성을 가진다. 즉, 모든 데이터 값에 동일한 값 를 더하면 평균도 만큼 증가한다 ().
- 측정 단위의 척도에 독립적이다 (1차 동차성). 즉, 모든 데이터 값에 0이 아닌 상수 를 곱하면 평균도 배가 된다 ().
- 정규 분포와 같이 좌우 대칭인 확률 분포에서는 평균값이 중앙값과 일치한다.
3. 1. 중심 경향성
일반적으로 산술 평균은 여러 값들이 어느 값에 치우쳐져 있는지, 즉 '''집중경향값'''(集中傾向, central tendency)을 계산하기 위해 사용된다. 예를 들어, 일인당 국민소득은 모든 사람의 총소득을 합한 값을 전체 사람 수로 나눈 값이다. 일정하게 변하는 양의 평균을 계산할 때는 기하 평균을 사용하는 것이 더 적합할 수 있다.산술 평균은 중심 경향성을 측정하는 척도로서 다음과 같은 중요한 속성들을 가진다.
- 편차의 합은 0: 숫자 의 산술 평균을 라고 할 때, 각 데이터 값에서 평균을 뺀 값, 즉 편차()들의 총합은 항상 0이 된다.
:
이는 평균값을 중심으로 데이터 값들이 균형을 이루고 있음을 의미한다. 평균은 잔차(추정치로부터의 편차)의 합이 0이 되는 유일한 값이다.[4]
- 역학적으로 비유하면, 데이터 값을 가로축, 도수를 세로축으로 하는 히스토그램을 만들었을 때, 이 히스토그램 모양 물체의 무게 중심은 평균값 가 위치한 지점 위에 있다.
- 제곱 오차의 최소화: 어떤 값 와 각 데이터 값 사이의 차이를 제곱하여 모두 더한 값()을 최소로 만드는 값 는 바로 산술 평균 이다. 즉, 산술 평균은 데이터로부터의 제곱 편차의 합을 최소화하는 값이다. 이 때문에 표본 평균은 제곱근 평균 오차를 가장 작게 만드는 최고의 단일 예측 변수로 여겨지기도 한다.[4] 또한, 모집단의 산술 평균을 추정하고자 할 때, 표본의 산술 평균은 비편향 추정량이 된다.
- 병진 불변성: 모든 데이터 값에 동일한 값 를 더하거나 빼도, 새로운 데이터의 평균은 원래 평균에 를 더하거나 뺀 값과 같다. 즉, 이다. 이는 평균이 데이터의 이동에 대해 동일하게 이동함을 의미한다.
- 척도 독립성 (1차 동차성): 모든 데이터 값에 0이 아닌 상수 를 곱하면, 새로운 데이터의 평균은 원래 평균에 를 곱한 값과 같다.
:
예를 들어, 리터 단위로 평균을 계산한 뒤 갤런으로 환산하는 것과, 처음부터 갤런으로 환산한 뒤 평균을 계산하는 결과는 같다. 이것은 또한 1차 동차성이라고도 한다.
하지만 산술 평균은 데이터에 극단적으로 크거나 작은 값(이상치)이 포함될 경우 그 값에 크게 영향을 받는다는 단점이 있다. 예를 들어, 5, 19, 38, 42, 64, 81의 평균은
:
이지만, 여기에 1,240,983이라는 매우 큰 값을 하나 추가하면 평균은
:
로 크게 달라진다. 이처럼 이상치의 영향을 많이 받는 경우에는 산술 평균 대신 중앙값이나 다른 강건한(robust) 통계량을 사용하는 것이 더 적절할 수 있다.
3. 2. 최소 제곱 추정
어떤 숫자들의 집합 이 주어졌을 때, 이 숫자들을 대표하는 "전형적인" 값으로 하나의 숫자를 사용해야 한다면 산술 평균 가 가장 적합하다. 이는 산술 평균이 각 숫자로부터의 제곱 편차의 합, 즉 를 최소화하는 유일한 값이기 때문이다.[4] 다른 말로 하면, 임의의 수 에 대해 데이터 값과의 차의 제곱의 합 을 구하는 함수를 생각할 때, 이 함수는 데이터의 산술 평균값 에서 최솟값을 가진다. 이러한 성질 때문에 산술 평균은 최소 제곱법의 관점에서 중요한 의미를 지닌다.만약 어떤 숫자 모집단의 산술 평균을 알고 싶다면, 해당 모집단에서 추출된 표본의 산술 평균, 즉 표본 평균은 원래 모집단 평균의 비편향 추정량이다. 이는 표본 평균이 평균적으로 실제 모집단 평균과 같아지는 경향이 있음을 의미한다. 또한, 표본 평균은 가능한 모든 단일 예측 변수 중에서 가장 낮은 제곱근 평균 오차(RMSE)를 가지므로, 예측 오차를 최소화하는 가장 좋은 단일 예측 변수로 간주된다.[4]
3. 3. 선형성
산술 평균은 측정 단위의 척도에 독립적이다. 즉, 각 데이터에 상수 c를 곱한 값들의 산술 평균은 원래 데이터들의 산술 평균에 상수 c를 곱한 것과 같다(). 예를 들어, 리터 단위로 평균을 계산한 다음 갤런으로 변환하는 것은 먼저 갤런으로 변환한 다음 평균을 계산하는 것과 같다. 이것은 또한 1차 동차성이라고도 한다.4. 역사
통계학자 처칠 아이젠하트는 미국 국립표준국의 선임 연구원으로 활동하며 산술 평균의 역사를 상세하게 추적했다. 현대에 들어 산술 평균은 자기 북극의 방향처럼 이론상으로는 하나여야 하지만, 실제 측정에서는 여러 다른 값이 나올 때 이를 하나로 합치는 방법으로 사용되기 시작했다.
1635년, 수학자 헨리 겔리브랜드는 가장 낮은 값과 가장 높은 값의 중간 지점을 "평균(meane)"이라고 불렀는데, 이는 오늘날의 산술 평균과는 약간 다른 개념이었다. 1668년에는 "DB"라는 인물이 왕립 학회 회보에 다섯 개의 값을 이용해 "평균을 구하는" 것에 대해 "이 표에서 그는 [캡틴 스터미]가 가장 큰 차이를 14분으로 기록했으며, 참된 변화에 대한 평균을 구하여 당시 그곳에서 1도 27분으로 결론지었다."라고 묘사했다.[3]
5. 활용
산술 평균은 데이터 집합의 특징을 나타내는 여러 방법 중 하나로, 다양한 분야에서 활용된다. 가장 기본적인 용도는 데이터 값들이 어떤 값을 중심으로 분포하는지 나타내는 '''집중경향값'''(central tendency)을 구하는 것이다. 예를 들어, 한 국가의 일인당 국민소득은 전체 국민 소득의 합을 인구수로 나누어 계산하는 산술 평균의 대표적인 예시다.
그러나 산술 평균을 활용할 때는 몇 가지 고려할 점이 있다. 데이터에 매우 크거나 작은 '''극단값'''이 포함된 경우, 산술 평균은 이 값의 영향을 크게 받아 전체 데이터를 대표하기 어려울 수 있다. 또한, 각 데이터 값의 중요도가 다를 경우에는 단순 산술 평균 대신 각 값에 가중치를 부여하는 가중 평균을 사용해야 한다.
데이터의 종류에 따라서도 다른 평균 계산 방식이 필요할 수 있다. 예를 들어, 값이 특정 범위 내에서 연속적으로 변하는 경우에는 연속 확률 분포의 평균 개념을 적용하며, 각도와 같이 순환적인 성격을 가진 데이터는 일반적인 산술 평균 대신 원형 통계학에서 다루는 특별한 평균 계산법을 사용해야 왜곡된 결과를 피할 수 있다. 이처럼 산술 평균은 기본적인 개념이지만, 실제 활용에서는 데이터의 특성을 고려하여 적절한 방법을 선택하거나 보완적인 통계치를 함께 살펴보는 것이 중요하다.
5. 1. 일반적인 활용
일반적으로 산술 평균은 일정하게 변한 량의 평균을 계산하는데 쓰이기보다는 (이때는 기하 평균을 사용한다), 여러 값들이 어느 값에 치우쳐 있는지, 즉 '''집중경향값'''(集中傾向, central tendency)을 계산하기 위해 사용된다. 예를 들어, 일인당 총 소득은 모든 사람의 총소득을 합한 값을 전체 인구 수로 나누어 구한다.다른 예로, 수 5, 19, 38, 42, 64, 81들의 평균 값은 다음과 같이 계산할 수 있다.
:
그러나 일반적으로, 만약 수에 매우 크거나 매우 작은 값(극단값)이 있다면 산술평균 값은 그 값의 영향을 크게 받는다. 예를 들어, 위 숫자 목록에 매우 큰 값 하나(1,240,983)를 추가하여 평균을 계산해 보면 다음과 같다.
:
이처럼 숫자가 하나만 추가되었음에도 불구하고 그 수가 매우 크기 때문에 평균값이 이전(41.5)과 비교하여 크게 달라지는 것을 알 수 있다.
5. 2. 극단값의 영향
일반적으로 산술 평균은 일정하게 변한 양의 평균을 계산하는 데 쓰이기보다는(기하 평균 사용), 여러 값들이 어느 값에 치우쳐져 있는지, 즉 '''집중경향값'''(集中傾向, central tendency)을 파악하기 위해 사용된다. 예를 들어, 일인당 총 소득은 모든 사람의 총소득을 합한 값을 전체 인구수로 나눈 값이다.하지만 산술 평균은 데이터에 포함된 '''극단값'''(매우 크거나 매우 작은 값)에 큰 영향을 받는다는 특징이 있다. 예를 들어, 5, 19, 38, 42, 64, 81이라는 여섯 개의 수가 있다고 가정해보자. 이 수들의 산술 평균은 다음과 같이 계산된다.
:
그러나 여기에 1,240,983이라는 매우 큰 값(극단값)을 하나 추가하여 5, 19, 38, 42, 64, 81, 1240983의 평균을 계산하면 결과는 크게 달라진다.
:
이처럼 데이터에 극단값이 포함될 경우, 산술 평균은 그 값의 영향을 받아 전체 데이터를 대표하는 집중경향값으로서의 의미가 왜곡될 수 있다.
5. 3. 가중 평균
가중 평균(Weighted average) 또는 가중 산술 평균은 각 데이터 값에 서로 다른 중요도, 즉 가중치를 부여하여 계산하는 평균이다.[6] 어떤 데이터 값들은 다른 값들보다 계산 결과에 더 큰 영향을 미치게 된다.예를 들어, 숫자 과 의 산술 평균은 이다. 이는 각 숫자에 동일한 가중치 를 부여한 것과 같다: .
만약 첫 번째 숫자인 에 두 번째 숫자인 보다 두 배의 가중치를 부여한다면 (예를 들어, 표본을 추출한 모집단에서 이 보다 두 배 더 자주 나타난다고 가정할 경우), 가중 평균은 다음과 같이 계산된다: . 여기서 사용된 가중치 과 의 합은 1이며, 첫 번째 가중치가 두 번째 가중치의 두 배이다.
일반적인 산술 평균은 모든 데이터 값에 동일한 가중치(개의 데이터를 평균낼 경우 )를 부여하는 경우로 볼 수 있으며, 이는 가중 평균의 특수한 경우에 해당한다. 따라서 산술 평균을 "비가중 평균" 또는 "동일 가중 평균"이라고 부르기도 한다.
5. 4. 연속 확률 분포
수치적 속성을 측정할 때 얻어지는 데이터가 특정 값(예: 정수)에 국한되지 않고 연속적인 범위 내의 어떤 값이든 가질 수 있다면, 가능한 값의 범위 내에 숫자가 속할 확률은 연속 확률 분포를 통해 설명된다. 비록 무한히 많은 가능한 값 중에서 특정 값 하나를 가질 확률은 0일지라도, 특정 범위에 속할 확률은 해당 범위에 걸쳐 분포를 적분하여 구할 수 있다.
이러한 맥락에서, 연속 확률 분포의 평균은 확률 분포의 평균이라고 불린다. 이는 각 값에 대한 무한히 많은 가능성을 고려한 가중 평균과 유사한 개념이다. 가장 널리 사용되는 연속 확률 분포는 정규 분포이며, 정규 분포는 평균, 중앙값, 그리고 최빈값이 모두 동일하다는 중요한 특징을 갖는다.[7] 하지만 그림의 로그 정규 분포 예시처럼 다른 많은 확률 분포에서는 이 세 가지 중심 경향 측도값이 서로 다를 수 있다.
5. 5. 각도 평균
각도나 위상과 같은 순환적인 데이터를 다룰 때는 일반적인 산술 평균을 사용하는 데 주의가 필요하다. 예를 들어, 1°와 359°의 산술 평균을 계산하면 (1 + 359) / 2 = 180°가 된다. 하지만 이 값은 직관적인 평균값이라고 보기 어렵다.이 계산이 적절하지 않은 이유는 다음과 같다.
- 첫째, 각도 측정값은 360° (단위가 라디안일 경우 2π)를 주기로 반복된다. 즉, 359°는 -1°와 같다고 볼 수 있으며, 1°와 -1°의 평균은 0°이다. 또한 359°를 719° (359°+360°)로 간주하면 1°와 719°의 평균은 360°가 된다. 이처럼 동일한 각도를 어떻게 표현하느냐에 따라 산술 평균값이 달라지는 문제가 발생한다.
- 둘째, 기하학적으로 볼 때 1°와 359° 사이의 '중간' 지점은 0°(또는 360°)로 간주하는 것이 더 자연스럽다. 실제로 0°를 평균으로 가정하면 각 값과의 차이(거리)는 각각 1°로, 분산이 더 작다. 반면 180°를 평균으로 가정하면 각 값과의 차이는 179°로 분산이 훨씬 커진다.
단순 산술 평균을 순환 데이터에 적용하면, 평균값이 데이터가 분포하는 범위의 중간 지점으로 인위적으로 치우치는 경향이 나타난다. 이러한 문제를 해결하기 위해 원형 통계학(Directional statistics)에서는 다른 접근 방식을 사용한다. 대표적인 방법은 분산을 최소화하는 지점을 평균으로 정의하는 최적화 공식을 사용하는 것이다. 또한, 두 각도 사이의 거리를 계산할 때 원 위에서의 최단 거리, 즉 모듈식 거리(modular distance)를 사용한다. 예를 들어 1°와 359° 사이의 모듈식 거리는 358°가 아니라 원 위에서 더 가까운 거리인 2°가 된다.
6. 중앙값과의 비교
산술 평균은 중앙값과 비교될 수 있다. 중앙값은 데이터를 크기 순서대로 나열했을 때 정확히 가운데에 위치하는 값으로, 전체 데이터 중 절반은 중앙값보다 크거나 같고 나머지 절반은 중앙값보다 작거나 같게 된다.
만약 데이터 값들이 등차수열처럼 일정한 간격으로 증가하거나 분포가 좌우 대칭이라면, 산술 평균과 중앙값은 같은 값을 가진다. 예를 들어, {1, 2, 3, 4}라는 데이터가 있다면 산술 평균은 2.5이고, 중앙값 역시 2와 3의 평균인 2.5이다.
하지만 데이터 분포가 한쪽으로 치우쳐 있다면 산술 평균과 중앙값은 상당히 달라질 수 있다. 예를 들어, {1, 2, 4, 8, 16}과 같은 데이터의 산술 평균은 6.2이지만, 중앙값은 세 번째 값인 4이다. 이처럼 평균값은 데이터 집단 내의 극단적인 값에 영향을 많이 받기 때문에, 때로는 대부분의 값들과 동떨어진 값을 나타낼 수 있다. 산술 평균과 중앙값의 차이는 데이터 분포가 얼마나 치우쳐 있는지를 보여주는 지표가 되기도 한다.
이러한 특징은 경제학 등 여러 분야에서 중요하게 활용된다. 예를 들어, 소득 분포처럼 소수의 고소득자가 전체 평균을 크게 높이는 경우, 산술 평균보다는 중앙값이 일반적인 소득 수준을 더 잘 나타낼 수 있다. 미국에서는 1980년대 이후 소득의 산술 평균이 중앙값보다 더 빠르게 증가했는데, 이는 소득 불평등이 심화되고 있음을 시사한다.[5][12] 대한민국에서도 1997년 외환 위기 이후 소득 불평등 문제가 심화되면서, 소득 통계에서 산술 평균과 함께 중앙값이 중요한 지표로 주목받고 있다.
7. 기호 및 표현
산술 평균은 보통 변수 위에 마크롱이라고도 불리는 막대 기호(가로줄)를 사용하여 나타낸다. 예를 들어, 변량 x의 데이터 평균은 와 같이 쓴다.[4]
하지만 일부 텍스트 프로세서나 웹 브라우저 같은 소프트웨어에서는 "x̄" 기호가 제대로 표시되지 않을 수 있다. 예를 들어, HTML에서 "x̄" 기호는 기본 문자인 "x"와 그 위에 놓이는 가로줄 코드( ̄ 또는 ¯)를 합쳐서 만들어진다.[8]
또한, PDF와 같은 일부 문서 형식에서는 이 기호를 복사하여 Microsoft Word 같은 텍스트 프로세서에 붙여넣을 때 "¢"(센트) 기호로 잘못 바뀌는 경우도 있다.
참조
[1]
서적
Mathematics: A Human Endeavor
W. H. Freeman
[2]
웹사이트
Arithmetic Mean
https://mathworld.wo[...]
2020-08-21
[3]
웹사이트
The Development of the Concept of the Best Mean of a Set of Measurements from Antiquity to the Present Day
https://www.york.ac.[...]
Presidential Address, 131st Annual Meeting of the American Statistical Association, Colorado State University
1971-08-24
[4]
서적
Statistical Methods: An Introductory Text
https://books.google[...]
New Age International
[5]
간행물
The Rich, the Right, and the Facts: Deconstructing the Income Distribution Debate
http://prospect.org/[...]
2014-06-04
[6]
웹사이트
Mean {{!}} mathematics
https://www.britanni[...]
2020-08-21
[7]
웹사이트
The Three M's of Statistics: Mode, Median, Mean June 30, 2010
https://www.visualth[...]
2010-06-30
[8]
웹사이트
Notes on Unicode for Stat Symbols
http://www.personal.[...]
2018-10-14
[9]
웹사이트
算術平均とは
http://www.finance-d[...]
2011-04-13
[10]
웹사이트
相加平均とは - コトバンク
https://kotobank.jp/[...]
[11]
문서
確率論及統計論
https://cir.nii.ac.j[...]
[12]
웹사이트
The Level and Distribution of Economic Well-Being
http://www.federalre[...]
2010-07-23
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com