가중 산술 평균
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
가중 산술 평균은 각 데이터 값에 가중치를 부여하여 계산하는 평균의 한 유형이다. 이는 각 값의 중요도를 반영하여 데이터를 요약하는 데 사용되며, 가중치는 데이터 요소의 기여도를 결정한다. 가중 평균은 기본 예제와 볼록 결합 예제를 통해 이해할 수 있으며, 수학적으로는 가중치와 데이터 값의 곱의 합을 가중치의 합으로 나눈 값으로 정의된다. 가중치의 의미, 분산 가중치, 통계적 속성, 관련 개념 등을 포함하며, 가중 표본 분산, 가중 표본 공분산, 벡터 값 추정, 상관 관계 고려, 상호 작용 감소, 지수 감소 가중치, 함수의 가중 평균, 과대/과소 분산 보정 등 다양한 개념과 연관된다.
더 읽어볼만한 페이지
가중 산술 평균 |
---|
2. 기본 개념
가중 산술 평균(또는 가중 평균)은 각 데이터에 중요도나 빈도에 따라 가중치(weight)를 부여하여 계산하는 평균값이다. 모든 데이터에 동일한 가중치를 부여하는 산술 평균과 대비된다. 가중 평균은 데이터의 상대적인 중요도를 고려하여 평균을 계산하므로, 단순 산술 평균보다 더 정확한 값을 얻을 수 있다.
예를 들어, 학교에서 시험 성적을 계산할 때, 각 시험의 난이도나 중요도에 따라 가중치를 다르게 부여할 수 있다. 어려운 시험에는 더 큰 가중치를 부여하여 학생들의 실력을 더 정확하게 평가할 수 있다.
2. 1. 기본 예제
오전반과 오후반 두 학급의 시험 성적은 다음과 같다.학급 | 학생 수 | 평균 점수 | 시험 성적 |
---|---|---|---|
오전반 | 20명 | 80점 | 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98 |
오후반 | 30명 | 90점 | 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99 |
두 학급의 평균 점수를 단순 평균내면 85점이다. 그러나 이 값은 각 학급의 학생 수 차이(오전반 20명, 오후반 30명)를 고려하지 않았기 때문에 전체 학생의 평균 성적을 반영하지 않는다. 전체 평균 성적은 모든 성적을 더하고 총 학생 수로 나누어 구할 수 있다.
:
또는, 각 학급의 학생 수를 가중치로 사용하여 학급 평균에 가중치를 부여하는 방식으로도 구할 수 있다. 학생 수가 더 많은 학급(오후반)에 더 큰 가중치를 부여한다.
:
이처럼 가중 평균을 이용하면 각 학생의 개별 점수를 몰라도 전체 평균 성적을 구할 수 있다. 즉, 각 학급의 평균 점수와 학생 수만 알면 된다.
2. 2. 볼록 결합 예제
모든 가중 평균은 상대적인 가중치만 관련이 있으므로, 합이 1인 계수를 사용하여 표현할 수 있다. 이러한 선형 결합을 볼록 결합이라고 한다.예를 들어 두 학급의 학생 수가 각각 20명, 30명이고 각 학급의 시험 평균 점수가 80점, 90점일 때, 다음과 같이 가중치를 구할 수 있다.
- 20 / (20 + 30) = 0.4
- 30 / (20 + 30) = 0.6
그런 다음 이 가중치를 적용하여 전체 평균을 구하면 다음과 같다.
: (0.4 × 80) + (0.6 × 90) = 86.
3. 수학적 정의
형식적으로, 0이 아닌 유한한 튜플 데이터 의 가중 평균은 해당하는 음이 아닌 가중치 와 함께 다음과 같이 정의된다.
:
이는 다음과 같이 풀어서 쓸 수 있다.
:
높은 가중치를 가진 데이터는 낮은 가중치를 가진 데이터보다 가중 평균에 더 큰 영향을 준다. 가중치는 음수가 될 수 없지만, 모두 0이 될 수는 없다. (0으로 나누는 것은 정의되지 않기 때문이다.)[1]
가중치의 합이 1이 되도록 정규화된 가중치 를 사용하면, 가중 평균은 다음과 같이 간단하게 표현된다.
:.
원래 가중치는 다음 변환을 통해 정규화할 수 있다.
:.
일반 평균은 모든 데이터의 가중치가 동일한, 즉 인 가중 평균의 특수한 경우이다.
만약 데이터 요소가 분산 를 갖는 독립적인 동일 분포 확률 변수라면, ''가중 평균의 표준 오차'' 는 불확실성 전파를 통해 다음과 같이 나타낼 수 있다.
:
3. 1. 가중치의 의미
가중치는 데이터 요소의 중요도를 나타낸다. 높은 가중치를 가진 데이터 요소는 낮은 가중치를 가진 요소보다 가중 평균에 더 큰 영향을 미친다.예를 들어 두 학급의 시험 성적을 생각해보자.
학급 | 학생 수 | 평균 점수 |
---|---|---|
오전반 | 20 | 80 |
오후반 | 30 | 90 |
두 학급의 평균 점수를 단순히 더해 2로 나누면 85점이 되지만, 이는 각 학급의 학생 수 차이를 고려하지 않은 값이다. 평균 학생 성적을 구하려면 각 학급의 평균 점수에 학생 수를 가중치로 하여 가중 평균을 계산해야 한다.
:
이처럼 가중 평균은 각 데이터 요소의 중요도(이 경우 학생 수)를 반영하여 전체 평균을 구하는 방법이다.
일반적으로, 데이터 에 대한 가중치 가 주어졌을 때 가중 평균은 다음과 같이 계산된다.
:
가중치는 음수가 아니어야 하며, 모두 0일 수는 없다. 만약 가중치의 합이 1이 되도록 정규화하면, 가중 평균은 다음과 같이 더 간단하게 표현할 수 있다.
:.
일반 평균은 모든 데이터의 가중치가 동일한 특수한 경우라고 할 수 있다.
3. 2. 분산 가중치
각 데이터 요소 \(x_i\)가 알려진 분산 \(\sigma_i^2\)을 가질 때, 서로 다른 확률 분포에서 나온 데이터 목록의 가중 평균을 구하는 한 가지 방법은 분산의 역수를 가중치로 사용하는 것이다.:
이 경우 가중 평균은 다음과 같이 계산된다.
:
그리고 역분산 가중치를 갖는 가중 평균의 표준 오차는 다음과 같다.
:
모든 \(\sigma_i = \sigma_0\)일 때, \(\sigma_{\bar{x}}^2 = \sigma_0^2/n\)으로 감소한다.
이러한 선택이 중요한 이유는, 이 가중 평균이 동일한 평균을 가지며 독립적이고 정규 분포를 따르는 확률 분포에서 평균의 최대 가능도 추정량이기 때문이다.
4. 통계적 속성
가중 표본 평균은 그 자체로 확률 변수이며, 기댓값과 분산을 갖는다.
기댓값가중 표본 평균의 기댓값은 관측값의 기댓값과 관련이 있다. 가중치의 합이 1이 되도록 정규화된 가중치를 가정하면, 각 관측값의 기댓값이 일 때, 가중 표본 평균의 기댓값은 다음과 같다.
:
특히, 모든 관측값의 평균이 같으면, 즉 이면, 가중 표본 평균의 기댓값도 그 값과 같아진다.
:
분산데이터가 독립적인 동일 분포 확률 변수인 경우, 가중 평균의 표준 오차는 불확실성 전파를 통해 계산할 수 있다. 하지만, 실제 상황에서는 설문 조사 방법론 등 다양한 방법론을 고려하여 분산을 추정해야 한다. 하위 섹션에서 이와 관련된 내용을 다룬다.
4. 1. 기댓값
가중 표본 평균 는 그 자체로 확률 변수이다. 그것의 기댓값은 관측값의 기댓값과 다음과 같이 관련되어 있다. 편의상 가중치의 합이 1이 되도록 정규화된 가중치를 가정한다.관측값의 기댓값이
:
라면, 가중 표본 평균의 기댓값은
:
이다.
특히, 모든 관측값의 평균이 같으면, 즉 이면, 가중 표본 평균의 기댓값도 그 값과 같아진다.
:
4. 2. 분산
가중 평균의 분산은 데이터의 변동성을 나타내는 지표이며, 가중치가 고려된 평균값의 신뢰도를 평가하는 데 사용된다. 가중 평균의 분산을 추정하는 방법은 다음과 같다.- 단순 i.i.d. 경우: 데이터가 독립적인 동일 분포 확률 변수인 경우, 가중 평균의 표준 오차는 불확실성 전파를 통해 계산할 수 있다.
- 설문 조사 관점: 설문 조사 방법론에서는 모집단 평균을 추정하기 위해 각 요소의 선택 확률을 고려하며, 가중치는 선택 확률의 역수(팽창 인자)로 사용된다.
- 가중 합계의 분산: 모집단 크기가 알려진 경우, 가중 평균의 분산은 각 요소의 가중치와 값을 사용하여 계산할 수 있다.
- 가중 평균의 분산 (비율-평균): 모집단 크기가 알려지지 않은 경우, 표본을 사용하여 모집단 크기를 추정하고, 이를 바탕으로 가중 평균의 분산을 추정할 수 있다. 이때, 테일러 급수 선형화, 부트스트랩, 잭나이프 등의 방법을 사용한다.
- 복제 기반 추정량: 잭나이프 및 부트스트래핑과 같은 복제 방법을 통해 가중 평균의 분산을 추정할 수 있다.
이러한 방법들은 각각 다른 가정과 특징을 가지므로, 적용 가능한 상황에 맞게 선택해야 한다. 예를 들어, 설문 조사 데이터의 경우, 각 요소의 선택 확률이 다르기 때문에 설문 조사 관점에서의 분산 추정 방법을 사용하는 것이 적합하다.
4. 2. 1. 단순 i.i.d. 경우
데이터 요소가 분산 를 갖는 독립적인 동일 분포 확률 변수인 경우, ''가중 평균의 표준 오차'' 는 불확실성 전파를 통해 다음과 같이 나타낼 수 있다.:
가중치를 상수로 취급하고, 상관관계가 없는 확률 변수에서 ''n''개의 관측치를 샘플링하며, 모든 변수가 동일한 분산과 기댓값을 갖는 경우(i.i.d. 확률 변수의 경우) 가중 평균의 분산은 가중되지 않은 분산에 키시의 설계 효과를 곱하여 추정할 수 있다(증명 참조).
:
여기서 , , 이다.
그러나 이 추정은 ''y'' 관측치에 대한 강력한 가정으로 인해 상당히 제한적이다. 이로 인해 더 일반적인 대체 추정기가 개발되었다.
4. 2. 2. 설문 조사 관점
설문 조사 방법론에서 관심 대상인 'y'의 모집단 평균을 추정하기 위해, 모집단의 각 요소에 대한 'y' 값의 총합(Y 또는 T)을 추정하고 이를 모집단 크기(N, 알려진 값) 또는 추정된 값()으로 나눈다. 이때 각 'y' 값은 상수로 간주되며, 변동성은 선택 절차에서 발생한다. 이는 무작위성이 y 값에서 설명되는 "모델 기반" 접근 방식과 대조된다.[2]설문 조사 절차는 관측치 'i'가 표본에 포함되면 1, 그렇지 않으면 0을 갖는 베르누이 분포 지표 값()을 생성한다. 이는 고정 표본 크기 또는 가변 표본 크기(예: 푸아송 표본 추출)에서 발생할 수 있다. 표본이 주어졌을 때 요소가 선택될 확률은 로, 한 번의 추출로 선택될 확률은 로 표시된다(N이 매우 크고 각 가 매우 작은 경우).[1]
각 요소()는 고정되어 있고, 무작위성은 표본 포함 여부()에서 발생하므로, 두 요소의 곱()에 대해 확률 변수로 간주한다. 이고, 이다.
표본의 각 요소가 선택 확률의 역수로 팽창되면, 이를 -팽창된 'y' 값()이라고 한다. 관련된 양은 -팽창된 'y' 값()이다.[1] 지표 함수를 곱하면 가 된다.
이 설계 기반 관점에서 가중 평균 분자에 사용되는 가중치는 선택 확률의 역수(팽창 인자)이다. 즉, 이다.
4. 2. 3. 가중 합계의 분산 (총계에 대한 ''pwr''-추정량)
모집단 크기()가 알려진 경우, 모집단 평균의 추정량 의 분산은 다음과 같이 계산된다.:
여기서 는 각 요소의 선택 확률의 역수(즉, 팽창 인자)이고, 는 각 요소의 값이며, 이다. 이는 표본 추출 설계가 고정된 표본 크기 ''n''을 가질 때 (예: pps 표본 추출) 적용된다.
표본 추출에 임의의 표본 크기가 있는 경우 (예: 푸아송 표본 추출) 분산은 다음과 같이 표현된다.[2]
:
여기서 이고, 이며, 는 요소 i와 j가 모두 선택될 확률이다.[2]
만약 선택 확률이 서로 상관관계가 없고 (즉, ), 각 요소의 선택 확률이 매우 작다면, 분산은 다음과 같이 근사할 수 있다.
:
4. 2. 4. 가중 평균의 분산 (비율-평균에 대한 {{π}}-추정량)
- 추정량(피어슨 추정량)을 사용하여 모집단 크기가 알려지지 않은 경우, 표본을 사용하여 모집단 크기를 추정하고, 이를 바탕으로 가중 평균의 분산을 추정할 수 있다. 이 경우 가중치는 선택 확률의 역수()를 사용한다.
모집단 크기 N이 알려지지 않았을 때, N의 추정은 가중치의 합으로 표현된다. 즉, 이다. 여기서 는 i번째 요소가 표본에 포함되면 1, 아니면 0인 지시변수이다.
관심 있는 매개변수는 와 1의 합의 비율이며, 다음과 같이 표현된다.
:.
표본을 사용하여 이를 추정하면 다음과 같다.
:.
실제로는 모든 지시 변수가 1이므로, 다음과 같이 간단하게 쓸 수 있다.
:.
이는 비율 추정량이며, R에 대해 거의 편향되지 않는다.[2]
이 경우 비율의 가변성은 분자와 분모 모두에서 무작위 변수의 가변성뿐만 아니라 그들의 상관 관계에도 의존한다. 닫힌 분석 형식이 없기 때문에, 근사 추정을 위해 테일러 급수 1차 선형화, 점근선, 부트스트랩/잭나이프 등의 방법이 사용된다.[2] 가중 평균의 경우, 근사 분산은 중간 표본 크기에서도 비교적 정확하다.[2] 표본 추출에 무작위 표본 크기가 있는 경우(예: 푸아송 표본 추출), 분산은 다음과 같이 추정된다.[2]
:.
만약 이면, 또는 를 사용하면 동일한 추정량을 얻는다. 에 어떤 인자를 곱해도 동일한 추정량이 나오기 때문이다. 또한 가중치의 합을 미리 알려진 모집단 크기 N과 같도록 조정하면 분산 계산이 동일하게 보인다. 모든 가중치가 서로 같으면, 이 공식은 평균의 분산에 대한 일반적인 공식과 유사해진다(단, 비편향 분산 대신 분산에 대한 최대 우도 추정량을 사용).
모집단 추정 버전을 사용하는 것이 여러모로 선호되는데,[2] 예를 들어 모든 y 값이 일정하면 모집단 크기가 알려지지 않은 추정량이 올바른 결과를 제공하는 반면, 모집단 크기가 알려진 추정량은 어느 정도 가변성을 갖게 된다. 또한 표본 크기 자체가 무작위인 경우 모집단 평균이 알려지지 않은 버전이 더 안정적이며, 표본 추출 비율이 값과 음의 상관 관계가 있는 경우(큰 관측치를 표본 추출할 가능성이 적은 경우) 모집단 크기가 알려지지 않은 버전이 이를 약간 보상한다.
4. 2. 5. 부트스트래핑 검증
Gatz 등(1995)은 부트스트래핑 방법과 비교했을 때, 가중 평균의 테일러 급수 선형화를 이용한 분산 추정은 평균의 표준 오차 제곱에 대한 합리적인 추정치임을 보였다(화학 성분 측정의 맥락에서 사용될 때).[3]:
여기서 이다. 추가적인 단순화를 통해 다음을 얻는다.
:
Gatz 등은 위 공식이 가중 총계 추정량을 모집단 크기 추정량으로 나눈 것으로 가중 평균을 취급하면서 Endlich 등(1988)에 의해 발표되었으며,[4] Cochran(1977)이 발표한 공식에 기반하여 비율 평균에 대한 근사값이라고 언급했다. 그러나 Endlich 등은 이 유도를 논문에 발표하지 않은 것으로 보이며(비록 그들이 사용했다고 언급했지만), Cochran의 책에는 약간 다른 공식이 포함되어 있다.[5]
4. 2. 6. 복제 기반 추정량
잭나이프 및 부트스트래핑과 같은 복제 방법을 통해 가중 평균의 분산을 추정할 수 있다.[2]5. 관련 개념
형식적으로, 0이 아닌 유한한 튜플 데이터 의 가중 평균은 해당 데이터에 대한 음이 아닌 가중치 와 함께 다음과 같이 표현된다.
:
높은 가중치를 가진 데이터 요소는 낮은 가중치를 가진 요소보다 가중 평균에 더 큰 영향을 준다. 가중치는 식이 작동하려면 음수가 아니어야 한다.
가중치의 합이 1이 되도록 정규화하면(), 공식은 다음과 같이 단순화된다.
:.
가중치는 다음 변환을 통해 정규화할 수 있다.
:.
일반 평균은 모든 데이터가 동일한 가중치를 갖는 가중 평균의 특수한 경우이다.
데이터 요소가 분산 를 갖는 독립적인 동일 분포 확률 변수인 경우, 가중 평균의 표준 오차 는 불확실성 전파를 통해 다음과 같이 나타낼 수 있다.
:
5. 1. 가중 표본 분산
일반 평균과 달리 가중 평균을 사용하는 경우, 가중 표본의 분산은 가중되지 않은 표본의 분산과 다르게 계산된다.편향된 가중 표본 분산 는 다음과 같이 정의된다.
:
여기서 는 가중 평균이고, 정규화된 가중치에 대해 이다. 가중치가 빈도 가중치인 경우, 는 독립적이고 동일하게 분포된(iid) 가우스 관측값에 대한 의 최우 추정량이다.
작은 표본의 경우, 모집단 분산에 대한 비편향 추정량을 사용하는 것이 일반적이다. 가중 표본에서는 빈도 가중치와 신뢰도 가중치에 대해 각각 다른 비편향 추정량이 사용된다.
5. 1. 1. 빈도 가중치
가중치가 빈도 가중치(각 값이 나타나는 횟수)인 경우, 비편향 가중 표본 분산 추정량은 다음과 같이 계산된다.[1]:
이는 빈도 가중치에 대해 베셀 보정을 적용한 것이다.
예를 들어, 값 가 동일한 분포에서 추출된 경우, 이 집합을 가중치가 없는 표본으로 취급하거나, 가중치가 인 가중 표본 로 취급할 수 있으며, 어떤 방식으로든 동일한 결과를 얻는다.
만약 빈도 가중치 가 1로 정규화되면, 베셀 보정 후의 정확한 표현식은 다음과 같다.
:
여기서 총 표본 수는 이다 (이 아님). 어떤 경우든, 가 빈도 가중치 외의 다른 의미를 갖더라도 불편 보정을 얻기 위해서는 총 표본 수에 대한 정보가 필요하다.
추정량은 가중치가 표준 점수로 정규화되지 않은 경우에만 불편 추정량이 될 수 있다. 이러한 과정은 데이터의 평균과 분산을 변경하여 기저율 오류(베셀 보정에 필요한 모집단 수)를 잃게 한다.[1]
5. 1. 2. 신뢰도 가중치
가중치가 비무작위적인 경우(신뢰성 가중치), 편향되지 않은 추정치를 얻기 위해 보정 계수를 결정할 수 있다. 각 확률 변수가 동일한 분포에서 표본 추출된다고 가정하면, 추정치의 편향은 이다. 여기서 이고 이다. 이는 가중치가 없는 추정치의 편향과 유사하다.따라서 편향되지 않은 표본 분산 추정치는 다음과 같다.[6]
:
여기서 이다. 즉, 추정 분산의 기댓값은 표본 분포의 실제 분산과 같다.
가중, 편향되지 않은 표본 분산의 자유도는 ''N'' − 1에서 0까지 변동된다. 표준 편차는 위에서 설명한 분산의 제곱근이다.
5. 2. 가중 표본 공분산
가중 표본에서 각 행 벡터 (각각의 ''K''개의 확률 변수에 대한 개별 관측값 집합)에는 가중치 가 할당된다.그러면 가중 평균 벡터 는 다음과 같다.
:
그리고 가중 공분산 행렬은 다음과 같다.[8]
:
가중 표본 분산과 마찬가지로, 가중치의 유형에 따라 두 가지 다른 불편 추정량이 있다.
가중치가 ''빈도 가중치''인 경우, 베셀 보정을 사용한 공분산 행렬 의 ''비편향'' 가중 추정치는 다음과 같다.[8]
:
이 추정량은 가중치가 표준화되거나 정규화되지 않은 경우에만 비편향될 수 있다. 이러한 과정은 데이터의 평균과 분산을 변경하여 기저율 손실을 초래한다(베셀 보정에 필요한 모집단 수).
''신뢰도 가중치''의 경우, 가중치는 정규화된다.
:
(그렇지 않은 경우, 을 계산하기 전에 가중치를 합계로 나누어 정규화한다.
:
)
그런 다음 가중 평균 벡터 는 다음과 같이 단순화할 수 있다.
:
그리고 공분산 행렬 의 ''비편향'' 가중 추정치는 다음과 같다.[9]
:
여기서의 추론은 이전 섹션과 동일하다.
가중치가 정규화되었다고 가정하므로 이며, 이는 다음으로 축소된다.
:
모든 가중치가 동일한 경우, 즉 이면 가중 평균 및 공분산은 위의 비가중 표본 평균 및 공분산으로 축소된다.
5. 3. 벡터 값 추정
데이터 요소가 숫자가 아닌 벡터인 경우, 즉, 이면, ''m''-차원 공간에서 표본을 나타내며, 각 표본에 대해 공분산 행렬을 가질 수 있다.:
(여기서 위 첨자 T는 전치를 나타내며, 이는 벡터-행렬 표기법에서 열 벡터를 나타낸다). 스칼라 값의 경우처럼, 가중 평균 는 최대 가능도 추정치를 제공하며, 다음과 같이 주어 진다.
:
여기서 각 는 표본 의 공분산 행렬이고, 는 다음 식으로 주어지는 추정된 평균의 공분산 행렬이다.
:
공분산 행렬은 각 추정치의 분산과 다른 추정치와의 공분산을 포함하여, ''i''번째 추정치의 ''j''번째 요소의 분산은 의 대각선 요소 이고, 공분산은 비대각선 요소 및 이다. 이 맥락에서 공분산 행렬은 각 추정치의 강도에 대한 역 가중치 역할을 한다. 즉, 큰 분산은 작은 가중치에 해당한다.
위의 추정은 공분산 행렬의 역행렬을 기반으로 한 가중치의 "상호 작용" 관점에서 해석될 수 있다.
:
단순화된 스칼라 경우를 고려하면, 각 추정치의 분산이 동일하고 공분산이 0이면 (즉, 여기서 는 항등 행렬이다), 추정치의 가중 평균은 단순 평균이 된다. 이는 분산이 작을수록 가중치가 커지므로, 동일한 분산을 갖는 추정치는 동일한 가중치를 받아야 하기 때문에 직관적이다.
5. 4. 상관관계 고려
데이터 요소 간의 상관관계를 고려해야 하는 경우가 있다. 예를 들어, 측정된 양 의 여러 측정값이 있을 수 있다. 이 경우, 각 측정값은 상관될 수 있다.일반적인 경우, 개의 상관된 측정값의 평균을 구하고, 각 측정값의 분산이 이고, 공분산 행렬이 로 주어지는 경우를 생각해 보자. 이 경우, 최적의 추정치는 각 측정값의 역분산으로 가중된 평균으로 주어진다.
:.
그리고 가중 평균의 분산은 다음과 같다.
:.
이러한 가중치는 가우스-마르코프 정리에 따른 최소 분산 추정치를 제공한다.
5. 5. 상호 작용 감소
이전에 설명한 시나리오에서 상호 작용 강도가 시간에 따라 감소하는 현상은 대부분 음의 지수 법칙을 따른다. 관측치가 동일한 시간 간격으로 측정된다면, 지수적 감소는 매 시간 단계마다 일정한 비율 $0 < \Delta < 1$ 만큼 감소하는 것과 같다. $w = 1 - \Delta$로 설정하면, $m$개의 정규화된 가중치는 다음과 같이 정의할 수 있다.:$w_i = \frac{w^{i-1}}{V_1}$
여기서 $V_1$은 정규화되지 않은 가중치의 합이다. 이 경우 $V_1$는 다음과 같다.
:$V_1 = \sum_{i=1}^{m} w^{i-1} = \frac{1 - w^{m}}{1 - w}$
$m$ 값이 커지면 $V_1 = 1 / (1 - w)$에 가까워진다.
감쇠 상수 $w$는 상호 작용 강도의 실제 감소를 반영해야 한다. 만약 이론적으로 $w$를 결정할 수 없다면, 지수 감소 가중치의 다음 성질을 이용하여 적절한 값을 선택할 수 있다. $(1 - w)^{-1}$ 단계에서 가중치는 대략 ${e^{-1}}(1 - w) = 0.39(1 - w)$와 같고, 꼬리 면적은 $e^{-1}$이며, 머리 면적은 ${1 - e^{-1}} = 0.61$이다. $n$ 단계에서의 꼬리 면적은 $\le {e^{-n(1 - w)}}$이다. 만약 가장 가까운 $n$개의 관측치가 중요하고 나머지 관측치의 영향은 무시해도 된다면, 꼬리 면적이 충분히 작아지도록 $w$를 선택한다.
5. 6. 지수 감소 가중치
주어진 원본 소스에는 지수 감소 가중치에 대한 내용이 직접적으로 나타나 있지 않다. 독립 변수와 종속 변수의 시계열, 그리고 슬라이딩 평균에 대한 내용만 포함되어 있다. 따라서 '지수 감소 가중치' 섹션에 해당 내용을 작성하는 것은 적절하지 않다. 원본 소스에 해당 내용이 없으므로, 섹션 내용을 비워둔다.5. 7. 과대/과소 분산 보정
실험 오차로 인해 분산이 과소 또는 과대 평가될 수 있는 상황에서 가중 평균의 분산을 보정하는 방법을 설명하고, 환산 카이제곱 통계량을 소개한다.데이터 요소가 분산 를 갖는 독립적인 동일 분포 확률 변수인 경우, ''가중 평균의 표준 오차'' 는 불확실성 전파를 통해 다음과 같이 나타낼 수 있다.
:
6. 한국 사회에의 적용 (별도 추가)
가중 산술 평균은 대한민국 사회의 여러 분야에서 중요한 역할을 한다.
'''대학 입시'''에서 가중 평균은 매우 중요하다. 각 대학은 대학수학능력시험의 특정 과목에 가중치를 부여하여 학생들의 성적을 평가한다. 예를 들어, 공과대학에서는 수학과 과학 과목에 더 높은 가중치를 부여할 수 있다. 이는 대학이 해당 분야에 더 적합한 학생을 선발하기 위한 방법이다.[1]
'''소비자 물가 지수(CPI)''' 계산에도 가중 평균이 사용된다. 통계청은 가구의 소비 지출에서 각 품목이 차지하는 비중에 따라 가중치를 부여하여 CPI를 계산한다. 예를 들어, 식료품 가격의 변화는 주거비 변화보다 CPI에 더 큰 영향을 미친다. 이는 가계 소비에서 식료품이 차지하는 비중이 더 크기 때문이다.[2]
'''주가 지수(KOSPI)''' 계산에도 가중 평균이 사용된다. 각 종목의 시가총액에 따라 가중치를 부여하여 지수를 계산한다. 예를 들어, 삼성전자와 같이 시가총액이 큰 기업의 주가 변동은 KOSPI에 더 큰 영향을 미친다. 이는 한국 경제에서 해당 기업이 차지하는 비중이 크기 때문이다.[3]
'''여론 조사'''에서도 가중 평균이 활용될 수 있다. 조사 대상의 연령, 성별, 지역 등 인구 통계학적 특성을 고려하여 가중치를 부여함으로써, 표본의 대표성을 높일 수 있다. 예를 들어, 특정 연령대의 응답자 수가 적을 경우, 해당 연령대에 가중치를 부여하여 전체 여론을 보다 정확하게 반영할 수 있다.[4]
'''평점''' 계산에도 가중 평균이 사용된다. 예를 들어, 영화나 음악 평점에서 각 평가 항목에 다른 가중치를 부여할 수 있다. 영화 평점에서 연기, 연출, 시나리오 등에 서로 다른 가중치를 부여하여 총점을 계산하는 방식이다.[5]
참조
[1]
서적
Model Assisted Survey Sampling
Springer
[2]
웹사이트
How to estimate the (approximate) variance of the weighted mean?
https://stats.stacke[...]
2021-06-08
[3]
간행물
The standard error of a weighted mean concentration—I. Bootstrapping vs other methods
https://www.cs.tufts[...]
1995-06
[4]
간행물
Statistical Analysis of Precipitation Chemistry Measurements over the Eastern United States. Part I: Seasonal and Regional Patterns and Correlations
1988-12-01
[5]
서적
Sampling Techniques
John Wiley & Sons
[6]
웹사이트
GNU Scientific Library – Reference Manual: Weighted Samples
https://www.gnu.org/[...]
2017-12-22
[7]
웹사이트
Weighted Standard Error and its Impact on Significance Testing (WinCross vs. Quantum & SPSS), Dr. Albert Madansky
http://www.analytica[...]
2017-12-22
[8]
간행물
Extension of covariance selection mathematics
http://www.dynamics.[...]
1972-04
[9]
문서
GNU Scientific Library - Reference manual, Version 1.15
https://www.gnu.org/[...]
[10]
서적
Statistical Methods in Experimental Physics
World Scientific
[11]
서적
Inequalities
Cambridge University Press
[12]
서적
The First Systems of Weighted Differential and Integral Calculus'
https://books.google[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com