변동 계수
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
변동 계수(CV)는 표준 편차를 평균으로 나눈 값으로, 데이터의 변동성을 나타내는 지표이다. 비율 척도로 측정된 데이터에 대해서만 의미를 가지며, 여러 데이터 세트의 변동성을 비교하는 데 유용하다. 모집단의 표본으로 CV를 추정할 때 편향을 보정하는 방법이 있으며, 로그 정규 분포를 따르는 데이터에 대한 보다 정확한 추정치도 존재한다. CV는 갱신 이론, 대기 행렬 이론, 보험 계리, 산업 공정, 고고학 등 다양한 분야에서 활용되며, 소득 불평등 측정 지표의 요구 사항을 충족한다. 하지만 평균이 0에 가까울 때 무한대로 발산하는 단점이 있으며, 절대 단위가 아닌 상대 단위로 변동 계수를 비교하는 것은 오해를 불러일으킬 수 있다.
변동 계수(CV)는 표준 편차 를 평균 로 나눈 값으로, 로 나타낸다.[1] 이는 모집단의 평균에 대한 변동성의 정도를 나타낸다.
모집단의 데이터 표본만 사용할 수 있는 경우, 모집단 변동 계수(CV)는 표본 표준 편차 ''s''를 표본 평균 으로 나눈 비율을 사용하여 추정할 수 있다.
2. 정의
2. 1. 유의점
변동 계수(CV)는 의미 있는 0(비율 척도)을 가지는 척도로 측정된 데이터에 대해서만 계산해야 하며, 두 측정값을 상대적으로 비교할 수 있다. 변동 계수는 구간 척도의 데이터에 대해서는 아무런 의미를 갖지 않을 수 있다.[2] 예를 들어, 대부분의 온도 척도(예: 섭씨, 화씨 등)는 임의의 0을 갖는 구간 척도이므로, 계산된 변동 계수는 사용된 척도에 따라 다를 것이다. 반면에 켈빈 온도는 열 에너지의 완전한 부재라는 의미 있는 0을 가지므로 비율 척도이다. 20 켈빈이 10 켈빈보다 두 배 더 뜨겁다고 말하는 것은 진정한 절대 0을 가진 이 척도에서만 의미가 있다. 표준 편차(SD)는 켈빈, 섭씨 또는 화씨로 측정할 수 있지만, 계산된 값은 해당 척도에만 적용된다. 유효한 변동 계수를 계산하는 데는 켈빈 척도만 사용할 수 있다.
로그 정규 분포를 따르는 측정값은 정상적인 CV를 나타낸다. 반대로, SD는 측정값의 기대 값에 따라 달라진다.
더 강력한 가능성은 사분위 편차 계수이며, 이는 사분위 범위의 절반 을 사분위수의 평균(midhinge) 으로 나눈 값이다.
대부분의 경우, CV는 여러 번 반복 측정된 종속 변수(예: 생산 공정의 오류)가 있는 단일 독립 변수(예: 단일 공장 제품)에 대해 계산된다. 그러나 선형 또는 로그적으로 비선형인 데이터이고 각 값에 대해 희소한 측정값으로 독립 변수의 연속 범위를 포함하는 데이터(예: 산점도)는 최대 우도 추정 접근 방식을 사용하여 단일 CV 계산에 적합할 수 있다.[3]
3. 추정
:
그러나 이 추정량은 작거나 중간 크기의 표본에 적용될 때 너무 낮아지는 경향이 있다. 즉, 편향 추정량이다. 정규 분포 데이터를 위한 크기 ''n''의 표본에 대한 비편향 추정량[4]은 다음과 같다.
:
3. 1. 편향 보정
모집단의 데이터 표본만 사용할 수 있는 경우, 모집단 변동 계수(CV)는 표본 표준 편차 를 표본 평균 으로 나눈 비율을 사용하여 추정할 수 있다.
:
그러나 이 추정량은 작거나 중간 크기의 표본에 적용될 때 너무 낮아지는 경향이 있다. 즉, 편향 추정량이다. 정규 분포 데이터를 위한 크기 n의 표본에 대한 비편향 추정량[4]은 다음과 같다.
:
3. 2. 로그 정규 분포 데이터
많은 데이터 집합은 대략적인 로그 정규 분포를 따른다.[5] 이러한 경우, 로그 정규 분포의 속성에서 파생된 보다 정확한 추정치는 다음과 같이 정의된다.[6][7][8]
:
여기서 은 자연 로그 변환 후 데이터의 표본 표준 편차이다. (측정값이 다른 로그 밑수, b를 사용하여 기록된 경우 표준 편차 는 를 사용하여 밑수 e로 변환되며, 에 대한 공식은 동일하게 유지된다.[9]) 이 추정치는 때때로 위의 단순한 추정치와 구별하기 위해 "기하 CV"(GCV)라고 한다.[10][11] 그러나 "기하 변동 계수"는 Kirkwood에 의해 다음과 같이 정의되기도 한다.[12]
:
이 용어는 로그 정규 데이터의 곱셈 변동을 설명하기 위해 변동 계수와 ''유사하게'' 사용하려는 것이었지만, GCV의 이 정의는 자체의 추정치로서 이론적 근거가 없다.
많은 실용적인 목적(예: 표본 크기 결정 및 신뢰 구간 계산)의 경우, 로그 정규 분포 데이터를 사용할 때 이 가장 유용하다. 필요한 경우, 해당 공식을 역으로 변환하여 또는 GCV의 추정치에서 이를 파생할 수 있다.
4. 예시
다음은 주어진 값을 더 큰 모집단에서 무작위로 선택된 값으로 간주하는 예시이다.
- 데이터 세트 [100, 100, 100]은 일정한 값을 갖는다. 표준 편차는 0이고 평균은 100이므로 변동 계수는 0 / 100 = 0이다.
- 데이터 세트 [90, 100, 110]은 더 많은 가변성을 갖는다. 표준 편차는 10이고 평균은 100이므로 변동 계수는 10 / 100 = 0.1이다.
- 데이터 세트 [1, 5, 6, 8, 10, 40, 65, 88]은 훨씬 더 많은 가변성을 갖는다. 표준 편차는 32.9이고 평균은 27.9이므로 변동 계수는 32.9 / 27.9 = 1.18이다.
다음은 주어진 값을 전체 모집단 값으로 간주하는 예시이다.
- 데이터 세트 [100, 100, 100]의 모집단 표준 편차는 0이고 변동 계수는 0 / 100 = 0이다.
- 데이터 세트 [90, 100, 110]의 모집단 표준 편차는 8.16이고 변동 계수는 8.16 / 100 = 0.0816이다.
- 데이터 세트 [1, 5, 6, 8, 10, 40, 65, 88]의 모집단 표준 편차는 30.8이고 변동 계수는 30.8 / 27.9 = 1.10이다.
5. 표준 편차와의 비교
변동 계수(CV)는 표준 편차를 평균으로 나눈 값으로, 모집단의 평균에 대한 변동성의 정도를 나타낸다. 변동 계수는 의미 있는 0을 가지는 비율 척도로 측정된 데이터에 대해서만 계산해야 한다. 예를 들어, 섭씨, 화씨와 같은 대부분의 온도 척도는 임의의 0을 갖는 구간 척도이므로, 계산된 변동 계수는 사용된 척도에 따라 달라진다. 반면에 켈빈 온도는 의미 있는 0을 가지므로 비율 척도이다.[2]
로그 정규 분포를 따르는 측정값은 정상적인 CV를 나타낸다. 더 강력한 방법으로는 사분위 편차 계수가 있으며, 이는 사분위 범위의 절반을 사분위수의 평균으로 나눈 값이다.
대부분의 경우, CV는 여러 번 반복 측정된 종속 변수가 있는 단일 독립 변수에 대해 계산된다. 그러나 선형 또는 로그적으로 비선형인 데이터이고 각 값에 대해 희소한 측정값으로 독립 변수의 연속 범위를 포함하는 데이터는 최대 우도 추정 접근 방식을 사용하여 단일 CV 계산에 적합할 수 있다.[3]
5. 1. 장점
변동 계수는 데이터의 표준 편차를 데이터의 평균과 함께 이해해야 하기 때문에 유용하다.[1] 변동 계수(CV)의 실제 값은 측정 단위에 독립적이므로 무차원수이다. 단위가 다르거나 평균이 크게 다른 데이터 세트를 비교하려면 표준 편차 대신 변동 계수를 사용해야 한다.5. 2. 단점
변동 계수는 평균값이 0에 가까워질수록 무한대에 가까워지는 경향이 있어, 평균의 작은 변화에도 민감하게 반응한다.[2] 이는 값이 비율 척도에서 비롯되지 않은 경우에 흔히 발생한다.또한, 변동 계수는 표준 편차와 달리, 평균에 대한 신뢰 구간을 직접 구성하는 데 사용할 수 없다.
6. 응용
변동 계수(CV)는 갱신 이론, 대기 행렬 이론, 신뢰성 이론 등 응용 확률 분야에서 자주 사용된다. 이 분야에서는 정규 분포보다 지수 분포가 더 중요한 경우가 많다. 지수 분포의 표준 편차는 평균과 같으므로 변동 계수는 1이다. CV < 1인 분포(예: 얼랑 분포)는 저분산, CV > 1인 분포(예: 초지수 분포)는 고분산으로 간주된다.
모델링에서 CV의 변형은 CV(RMSD)인데, 이는 표준 편차 항을 제곱 평균 제곱근 편차(RMSD)로 대체한다. 많은 자연 현상은 평균값과 그 주변 변동량 사이에 상관관계를 보인다. 그러나 정확한 센서 장치는 변동 계수가 0에 가깝도록 설계되어 작동 범위에서 일정한 절대 오차를 제공해야 한다.
보험 계리에서 CV는 '''단위화된 위험'''이라고 불린다.[13] 산업용 고체 공정에서 CV는 분말 혼합물의 균질성 정도를 측정하는 데 특히 중요하다. 계산된 CV를 사양과 비교하여 충분한 혼합 정도에 도달했는지 정의할 수 있다.[14]
유체 역학에서 CV는 '''%RMS''', '''%RMS 균일도''', '''속도 RMS'''라고도 불리며, 산업 공정의 흐름 균일성을 결정하는 데 유용하다.[15] 이 용어는 전기 집진기(ESPs), 선택적 촉매 환원(SCR), 스크러버 등 오염 제어 장치 설계에 널리 사용된다. 핵심 원칙은 이러한 오염 제어 장치가 제어 영역으로 들어오고 나가는 "균일한 흐름"을 필요로 한다는 것이다. %RMS는 연소 시스템, HVAC 시스템, 덕트 작업, 팬 및 필터 입구, 공기 조절 장치 등에서 장비 성능이 유입 흐름 분포의 영향을 받는 곳에서 흐름 균일성을 평가하는 데 사용된다.
6. 1. 경제학
변동 계수는 경제적 불평등 측정 지표에 대한 요구 사항을 충족한다.[20][21][22] 경제 지표 값(예: 부) 목록 '''x'''(항목 ''x''''i'' 포함)에서 ''x''''i''가 에이전트 ''i''의 부를 나타낸다면, 다음 요구 사항이 충족된다.- 익명성: ''c''''v''는 목록 '''x'''의 순서에 독립적이다. 이는 분산과 평균이 '''x'''의 순서에 독립적이라는 사실에서 비롯된다.
- 규모 불변성: ''c''v('''x''') = ''c''v(α'''x''') (단, α는 실수)[22]
- 인구 독립성: {'''x''','''x'''}가 목록 '''x'''를 자신에게 추가한 것이라면, ''c''''v''({'''x''','''x'''}) = ''c''''v''('''x''')이다. 이는 분산과 평균이 이 원칙을 따른다는 사실에서 비롯된다.
- 피구-달튼 이전 원칙: 부유한 에이전트 ''i''에서 가난한 에이전트 ''j''로 부가 이전될 때(''x''''i'' > ''x''''j''), 순위가 변경되지 않으면 ''c''''v''는 감소하고 그 반대도 성립한다.[22]
''c''''v''는 완전 평등(모든 ''x''''i''가 동일)할 때 최솟값 0을 갖는다.[22] 가장 두드러진 단점은 상한이 없어 지니 계수처럼 0과 1 사이로 정규화할 수 없다는 것이다.[22] 그러나 지니 계수보다 수학적으로 더 다루기 쉽다.
6. 2. 산업 공학
갱신 이론, 대기 행렬 이론, 신뢰성 이론과 같은 응용 확률 분야에서 변동 계수는 흔히 사용된다. 이러한 분야에서는 정규 분포보다 지수 분포가 더 중요한 경우가 많다.지수 분포의 표준 편차는 평균과 같으므로 변동 계수는 1과 같다. CV < 1 (예: 얼랑 분포)인 분포는 저분산으로 간주하고, CV > 1 (예: 초지수 분포)인 분포는 고분산으로 간주한다. 이러한 분야의 일부 공식은 종종 SCV로 축약되는 '''제곱 변동 계수'''를 사용하여 표현된다. 모델링에서 CV의 변형은 CV(RMSD)이다. 기본적으로 CV(RMSD)는 표준 편차 항을 제곱 평균 제곱근 편차 (RMSD)로 대체한다. 많은 자연 현상에서 평균값과 그 주변 변동량 사이에 상관관계가 있지만, 정확한 센서 장치는 변동 계수가 0에 가깝도록, 즉 작동 범위에서 일정한 절대 오차를 제공하도록 설계되어야 한다.
산업용 고체 공정에서 CV는 분말 혼합물의 균질성 정도를 측정하는 데 특히 중요하다. 계산된 CV를 사양과 비교하면 충분한 혼합 정도에 도달했는지 정의할 수 있다.[14]
6. 3. 보험 계리학
보험 계리에서 변동 계수(CV)는 '''단위화된 위험'''이라고 불린다.[13]6. 4. 실험실 측정
변동 계수는 정량적인 실험실 분석법의 품질 관리에 자주 사용된다. 내부 및 외부 분석 변동 계수를 한 분석 내에서 여러 검체의 변동 계수 값을 평균하거나 여러 외부 분석 변동 계수 추정치를 평균하여 계산한다고 가정할 수 있지만, 이러한 관행은 부정확하며 더 복잡한 계산 과정이 필요하다는 의견이 제시되었다.[17] 또한 검체의 반복 횟수가 다를 때 변동 계수 값은 측정의 확실성을 나타내는 이상적인 지표가 아니며, 이 경우 백분율로 나타낸 표준 오차가 더 우수하다고 제안되었다.[18] 측정값이 자연적인 0점을 갖지 않는 경우 변동 계수는 유효한 측정이 아니며, 급내 상관 계수와 같은 대체 측정법을 권장한다.[19]6. 5. 고고학
고고학자들은 고대 유물의 표준화 정도를 비교하기 위해 변동 계수(CV) 값을 자주 사용한다.[23][24] 변동 계수의 변화는 새로운 기술 도입에 대한 서로 다른 문화적 전파 환경을 나타내는 것으로 해석되어 왔다.[25] 또한 사회 조직의 변화와 관련된 도자기 표준화를 연구하는 데에도 사용되어 왔다.[26] 고고학자들은 변동 계수의 동등성을 검증하기 위해 수정된 부호 우도비(MSLR) 테스트와 같은 여러 가지 방법을 사용한다.[27][28]6. 6. 유체 역학
유체 역학에서 '''CV''', '''%RMS''', '''%RMS 균일도''', '''속도 RMS'''라고도 하는 변동 계수는 산업 공정의 흐름 균일성을 결정하는 데 유용하다.[15] 이 용어는 전기 집진기(ESPs), 선택적 촉매 환원(SCR), 스크러버 및 이와 유사한 장치와 같은 오염 제어 장치의 설계에 널리 사용된다. 청정 대기 기업 연구소(ICAC)는 직물 필터 설계에서 속도의 RMS 편차를 참조한다(ICAC 문서 F-7).[16] 이러한 오염 제어 장치 중 다수는 제어 영역으로 유입되고 통과하는 "균일한 흐름"을 필요로 한다. 이는 속도 프로파일의 균일성, 온도 분포, 가스 종(SCR의 암모니아 또는 수은 흡착을 위한 활성탄 주입 등) 및 기타 흐름 관련 매개변수와 관련될 수 있다. '''%RMS'''는 또한 연소 시스템, HVAC 시스템, 덕트 작업, 팬 및 필터 입구, 공기 조절 장치 등에서 장비의 성능이 유입 흐름 분포의 영향을 받는 곳에서 흐름 균일성을 평가하는 데 사용된다.7. 오용 사례
상대 단위를 사용하여 매개변수 간의 변동 계수를 비교하면 실제와 다를 수 있는 차이가 발생할 수 있다. 동일한 온도 집합을 섭씨와 화씨로 비교하면 (둘 다 상대 단위이며, 켈빈과 랭킨 척도는 관련 절대값임) 다음과 같다.
- 섭씨: [0, 10, 20, 30, 40]
- 화씨: [32, 50, 68, 86, 104]
표본 표준 편차는 각각 15.81과 28.46이다. 첫 번째 집합의 변동 계수(CV)는 15.81/20 = 79%이다. 두 번째 집합(동일한 온도)의 경우 28.46/68 = 42%이다.
예를 들어 데이터 집합이 두 개의 서로 다른 센서(섭씨 센서 및 화씨 센서)에서 측정한 온도 판독값이고, 가장 적은 분산을 가진 센서를 선택하여 어떤 센서가 더 나은지 알고 싶다면 변동 계수(CV)를 사용하면 오해를 받을 수 있다. 여기에서 문제는 절대값이 아닌 상대값으로 나누었다는 것이다.
이제 절대 단위로 동일한 데이터 집합을 비교하면 다음과 같다.
- 켈빈: [273.15, 283.15, 293.15, 303.15, 313.15]
- 랭킨: [491.67, 509.67, 527.67, 545.67, 563.67]
표본 표준 편차는 상수 오프셋의 영향을 받지 않으므로 여전히 각각 15.81과 28.46이다. 그러나 변동 계수는 이제 모두 5.39%와 같다.
수학적으로 말하면 변동 계수는 완전히 선형적이지 않다. 즉, 확률 변수 의 경우 의 변동 계수는 일 때만 의 변동 계수와 같다. 위의 예에서 섭씨는 형태의 선형 변환을 통해서만 화씨로 변환될 수 있으며, 켈빈은 형태의 변환을 통해 랭킨으로 변환될 수 있다.
8. 유사 비율
표준화 적률은 와 같은 유사 비율이다. 여기서 는 평균에 대한 ''k''번째 적률이고, 차원이 없으며 스케일 불변이다. 분산 대 평균 비율 ()도 유사한 비율이지만 차원이 없으므로 스케일 불변이 아니다.
신호 처리, 특히 이미지 처리에서 변동 계수의 역수 비율 (또는 그 제곱)은 일반적으로 신호 대 잡음비, 특히 신호 대 잡음비 (이미징)라고 한다.
다른 관련 비율은 다음과 같다.
- 효율:
- 표준화 적률:
- 분산 대 평균 비율 (또는 상대 분산):
- 파노 인자: (윈도우 VMR)
참조
[1]
서적
The Cambridge Dictionary of Statistics
https://archive.org/[...]
Cambridge University Press
[2]
웹사이트
What is the difference between ordinal, interval and ratio variables? Why should I care?
http://www.graphpad.[...]
GraphPad Software Inc
2008-02-22
[3]
논문
PsiMLE: A maximum-likelihood estimation approach to estimating psychophysical scaling and variability more reliably, efficiently, and flexibly
2016-06
[4]
서적
Biometry
Freeman
[5]
논문
Log-normal Distributions across the Sciences: Keys and Clues
[6]
논문
Confidence intervals for the coefficient of variation for the normal and log normal distributions
[7]
논문
Sample size determination for bioequivalence assessment by means of confidence intervals
[8]
논문
Why Are Pharmacokinetic Data Summarized by Arithmetic Means?
[9]
논문
Use of Coefficient of Variation in Assessing Variability of Quantitative Assays
[10]
간행물
FAQ: Issues with Efficacy Analysis of Clinical Trial Data Using SAS
https://web.archive.[...]
PharmaSUG2011
2011-08-24
[11]
논문
Head-to-head, randomised, crossover study of oral versus subcutaneous methotrexate in patients with rheumatoid arthritis: drug-exposure limitations of oral methotrexate at doses >=15 mg may be overcome with subcutaneous administration
[12]
논문
Geometric means and measures of dispersion
[13]
서적
Actex study manual, Course 1, Examination of the Society of Actuaries, Exam 1 of the Casualty Actuarial Society
https://books.google[...]
Actex Publications
2014-06-07
[14]
웹사이트
Measuring Degree of Mixing – Homogeneity of powder mix - Mixture quality - PowderProcess.net
https://www.powderpr[...]
2018-05-02
[15]
웹사이트
Improved Methodology for Accurate CFD and Physical Modeling of ESPs
http://www.airflowsc[...]
International Society of Electrostatic Precipitation (ISESP) Conference 2018
2018
[16]
웹사이트
F7 - Fabric Filter Gas Flow Model Studies
https://www.icac.com[...]
Institute of Clean Air Companies (ICAC)
1996
[17]
논문
Statistical quality control and routine data processing for radioimmunoassays and immunoradiometric assays.
1974-10
[18]
논문
Improving qPCR telomere length assays: Controlling for well position effects increases statistical power
2015
[19]
논문
Telomere length measurement validity: the coefficient of variation is invalid and cannot be used to compare quantitative polymerase chain reaction and Southern blot telomere length measurement technique
2016-08-30
[20]
서적
Economic Inequality and Income Distribution
Cambridge University Press
1999
[21]
서적
Income distribution
Oxford University Press
2006
[22]
웹사이트
Policy Impacts on Inequality – Simple Inequality Measures
http://www.fao.org/d[...]
Policy Support Service, Policy Assistance Division, FAO
2016-06-13
[23]
논문
Techniques for Assessing Standardization in Artifact Assemblages: Can We Scale Material Variability?
2001-07
[24]
논문
Ceramic Standardization and Intensity of Production: Quantifying Degrees of Specialization
http://doi.org/10.23[...]
2003
[25]
논문
Point Typologies, Cultural Transmission, and the Spread of Bow-and-Arrow Technology in the Prehistoric Great Basin
1999-04
[26]
논문
Standardization of ceramic shape: A case study of Iron Age pottery from northeastern Taiwan
http://osf.io/q8hn9/
2020-10
[27]
논문
Improved tests for the equality of normal coefficients of variation
2014-02
[28]
서적
cvequality: Tests for the equality of coefficients of variation from multiple groups
https://cran.r-proje[...]
R package version 0.2.0.
2019
[29]
논문
The Sampling Distribution of the Coefficient of Variation
[30]
논문
Comparisons of approximations to the percentage points of the sample coefficient of variation
[31]
서적
On an Approximate Test for Homogeneity of Coefficients of Variation
[32]
논문
Confidence intervals for a normal coefficient of variation
[33]
논문
An asymptotic test for the equality of coefficients of variation from k populations
[34]
논문
Estimator and tests for common coefficients of variation in normal distributions
http://pub.epsilon.s[...]
2013-09-23
[35]
논문
Improved tests for the equality of normal coefficients of variation
[36]
학위논문
Confidence Interval Estimation for Coefficient of Variation
https://scholarworks[...]
Georgia State University
2014-02-25
[37]
서적
Testing Statistical Hypothesis
Wiley
[38]
문서
[39]
서적
통계학 개론
신영사
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com