맨위로가기

산포도

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

산포도는 빈도분포의 모양을 조사할 때 변량의 흩어져 있는 정도를 나타내는 값이다. 통계적 산포는 데이터가 동일하면 0이 되고, 데이터 간 차이가 클수록 커진다. 표준 편차, 분산, 범위, 사분위 범위, 평균 차이, 평균 절대 편차, 이산 엔트로피 등이 있으며, 0보다 작은 값을 가질 수 없다. 산포도의 척도는 위치 불변이며 선형 변환에 유용하며, 과학에서는 측정값의 차이로 나타난다. 통계적 산포는 측정 오차, 개체 차이, 제조 공정, 모델 단순화 등 다양한 요인에 의해 발생한다.

더 읽어볼만한 페이지

  • 통계학 용어 - 퍼센트 포인트
    퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다.
  • 통계학 용어 - 편차
    편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.
산포도
통계적 분산
정의통계에서, 통계적 분산(statistical dispersion)은 데이터 집합의 값이 흩어져 있는 정도를 나타낸다.
다른 이름통계적 변동성(statistical variability), 흩어짐(scatter), 퍼짐(spread)
척도 유형범위
사분위수 범위
평균 절대 편차
분산
표준 편차
상대적 평균 차이
중위수 절대 편차
거리 표준 편차
분산의 척도
범위데이터 집합에서 가장 큰 값과 가장 작은 값의 차이.
사분위 범위데이터 집합의 1사분위수와 3사분위수의 차이.
평균 절대 편차데이터 집합의 각 값과 평균의 절대값 차이의 평균.
분산데이터 집합의 각 값과 평균의 차이의 제곱의 평균.
표준 편차분산의 제곱근. 데이터 집합의 값이 평균에서 얼마나 떨어져 있는지 나타냄.
상대적 평균 차이평균 절대 편차를 평균으로 나눈 값.
중위수 절대 편차데이터 집합의 각 값과 중위수의 절대값 차이의 중위수.
거리 표준 편차데이터 집합의 값들 사이의 모든 거리의 제곱 평균의 제곱근.
참고
관련 항목중심 경향
요약 통계

2. 통계적 산포의 척도

산포도는 빈도분포의 모양을 조사할 때, 변량이 흩어져 있는 정도를 가리키는 값이다. 통계적 산포는 모든 데이터가 동일하면 0이 되며, 데이터 간의 차이가 클수록 커진다.

범위, 사분위 범위, 평균 차이, 평균 절대 편차 등이 산포도의 척도로 사용되며, 확률 변수의 경우에는 이산 엔트로피도 사용된다. 이들은 모두 음수가 아닌 값을 가지며, 최소값은 0이다.

통계적 산포의 척도는 위치 불변이며 선형인 경우에 특히 유용하다. 확률 변수 ''X''의 산포가 ''SX''일 때, 그 선형 사상 ''Y''=''aX''+''b'' (''a''와 ''b''는 실수)의 산포는 ''SY''=|''a''|''S''''X''가 된다. 경험주의적인 과학에서는 같은 양을 여러 번 측정했을 때 나타나는 측정값의 차이로 통계적 산포가 구체적으로 나타난다.

2. 1. 표준 편차와 분산

평균 보존 확산(MPS)은 확률 분포 A에서 다른 확률 분포 B로의 변화인데, B는 A의 확률 밀도 함수의 하나 이상의 부분을 평균(기대값)은 변경하지 않고 펼쳐서 형성된다.[5] 평균 보존 확산의 개념은 분산에 따라 확률 분포의 부분 순서를 제공한다. 두 확률 분포 중 하나는 다른 것보다 더 많은 분산을 갖는 것으로 순위가 매겨질 수 있으며, 또는 두 분포 모두 더 많은 분산을 갖는 것으로 순위가 매겨지지 않을 수도 있다.

통계적 산포는 모든 데이터가 동일하면 0이 되며, 데이터 간의 차이가 클수록 커진다. 산포를 나타내는 중요한 값으로 표준 편차가 있다. 표준 편차는 분산의 제곱근으로 표시된다 (분산 자체도 산포를 나타내는 값이다).

2. 2. 범위, 사분위 범위

산포도는 빈도분포의 모양을 조사할 때, 변량이 흩어져 있는 정도를 가리키는 값이다. 통계적 산포는 모든 데이터가 동일하면 0이 되며, 데이터 간의 차이가 클수록 커진다. 산포를 나타내는 중요한 값으로 표준 편차가 있다. 표준 편차는 분산의 제곱근으로 표시된다 (분산 자체도 산포를 나타내는 값이다).

그 외의 유사한 통계량으로 범위, 사분위 범위, 평균 차이, 평균 절대 편차 등이 있으며, 확률 변수의 경우에는 이산 엔트로피도 있다. 이들은 모두 음의 값이 되지 않으며, 최소값은 0이다.

2. 3. 평균 절대 편차, 이산 엔트로피

산포도는 빈도분포의 모양을 조사할 때, 변량이 흩어져 있는 정도를 가리키는 값이다. 통계적 산포는 모든 데이터가 동일하면 0이 되며, 데이터 간의 차이가 클수록 커진다.

유사한 통계량으로 범위, 사분위 범위, 평균 차이, 평균 절대 편차 등이 있으며, 확률 변수의 경우에는 이산 엔트로피도 있다. 이들은 모두 음의 값이 되지 않으며, 최소값은 0이다.[1]

2. 4. 위치 불변성과 선형성

통계적 산포의 척도는 위치가 불변이고 선형인 경우에 특히 유용하다. 확률 변수 ''X''의 산포가 ''SX''일 때, 그 선형 사상 ''Y''=''aX''+''b'' (''a''와 ''b''는 실수)의 산포는 ''SY''=|''a''|''S''''X''가 된다. 경험주의적인 과학에서는 같은 양을 여러 번 측정했을 때 나타나는 측정값의 차이로 통계적 산포가 구체적으로 나타난다.

3. 변산성

스키너 상자 연구에서처럼 쥐가 먹이를 획득하는 과정에 도달하기까지 시행착오를 겪는 행동의 변산성은 데이터의 분산뿐만 아니라 중심경향치의 의미에서도 설명될 수 있다.

이러한 맥락에서 변산성(variability)은 문제 해결이라는 중심경향치를 가정할 때 해결책에서 멀어진 애매모호하거나 불안정해 보이기도 하지만, 한편으로는 다양하고 유연한 가능성에서 효과 있는 결과를 만들 수 있는 근접성을 보여주기도 한다.

평균 보존 확산(MPS)은 확률 분포 A에서 다른 확률 분포 B로의 변화로, B는 A의 확률 밀도 함수의 하나 이상의 부분을 평균(기대값)은 변경하지 않고 펼쳐서 형성된다.[5] 평균 보존 확산의 개념은 분산에 따라 확률 분포의 부분 순서를 제공한다. 두 확률 분포 중 하나는 다른 것보다 더 많은 분산을 갖는 것으로 순위가 매겨질 수 있으며, 또는 두 분포 모두 더 많은 분산을 갖는 것으로 순위가 매겨지지 않을 수도 있다.

4. 통계적 산포의 발생 요인

스키너 상자 연구에서처럼 쥐가 먹이를 얻기까지 시행착오를 겪는 행동의 변산성은 데이터의 분산뿐만 아니라 중심경향치의 의미에서도 설명될 수 있다. 이러한 맥락에서 변산성(variability)은 문제 해결이라는 중심경향치를 가정할 때 해결책에서 멀어진 애매모호하거나 불안정해 보이기도 하지만, 한편으로는 다양하고 유연한 가능성에서 효과적인 결과를 만들 수 있는 근접성을 보여주기도 한다.

물리학에서는 통계적 산포가 단순한 측정 오차로 나타나는 경우도 있다. 측정 기기의 재현성은 완벽하지 않기 때문에(정확도와 정밀도), 측정 대상이 변하지 않고 안정되어 있다면 측정값의 산포는 오차에서 원인을 찾을 수 있다.

생물학에서는 이러한 가정이 옳지 않다. 관측된 산포는 그 현상에 특유한 것일 수 있으며, 개체 차이의 영향이 매우 중요할 수 있다.

통계적 산포는 제품 제조 과정에서도 나타난다. 어떤 양이 일정하다고 가정하는 모델은 그것이 지속성을 가질 때만 유효하며, 각 현상에 맞춰 그러한 단순화가 타당한지를 판단할 필요가 있다.

4. 1. 측정 오차

물리학에서 통계적 산포는 단순한 측정 오차인 경우가 있다. 측정 기기의 재현성은 완벽하지 않기 때문에(정확도와 정밀도), 측정 대상이 변하지 않고 안정되어 있다면 측정값의 산포는 오차에서 원인을 찾을 수 있다.[1]

생물학에서는 이러한 가정이 옳지 않다. 관측된 산포는 그 현상에 특유한 것일 수 있으며, 개체 차이의 영향이 매우 중요할 수 있다.[1]

통계적 산포는 제품 제조에서도 나타난다.[1]

어떤 양이 일정하다고 가정하는 모델은, 그것이 지속성을 가질 때만 유효하다. 각 현상에 맞춰 그러한 단순화가 타당한지를 판단할 필요가 있다.[1]

4. 2. 개체 차이

스키너 상자에서의 연구처럼 쥐가 먹이를 얻는 과정에 도달하기까지 시행착오를 겪는 행동의 변산성은 데이터의 분산뿐만 아니라 중심경향치의 의미에서도 설명될 수 있음을 잘 보여준다. 따라서 이러한 맥락에서 변산성(variability)은 문제 해결이라는 중심경향치를 가정할 때 해결책에서 멀어진 애매모호하거나 불안정해 보이기도 하지만, 한편으로는 다양하고 유연한 가능성에서 효과 있는 결과를 만들 수 있는 근접성을 보여주기도 한다.

생물학 관련에서는 이러한 가정이 옳지 않다. 관측된 산포는 그 현상에 특유한 것일 수 있다. 예를 들어, 개체 차이의 영향이 매우 중요할 수 있다.

4. 3. 제조 공정

통계적 산포는 제품 제조 과정에서도 나타난다.

4. 4. 모델의 단순화

물리학에서 통계적 산포는 단순한 측정 오차인 경우가 있다. 측정 기기의 재현성은 완벽하지 않기 때문에(정확도와 정밀도), 측정 대상이 안정되어 있어도 측정값의 산포는 오차 때문에 발생할 수 있다.[1]

생물학에서는 이러한 가정이 옳지 않다. 관측된 산포는 그 현상에 특유한 것일 수 있으며, 개체 차이의 영향이 매우 중요할 수 있다.[1]

통계적 산포는 제품 제조에서도 나타난다.[1]

어떤 양이 일정하다고 가정하는 모델은 그것이 지속성을 가질 때만 유효하며, 각 현상에 맞춰 그러한 단순화가 타당한지를 판단할 필요가 있다.[1]

5. 분산에 따른 부분 순서

평균 보존 확산 (MPS)은 확률 분포 A에서 다른 확률 분포 B로의 변화인데, B는 A의 확률 밀도 함수의 하나 이상의 부분을 평균(기대값)은 변경하지 않고 펼쳐서 형성된다.[5] 평균 보존 확산의 개념은 분산에 따라 확률 분포의 부분 순서를 제공한다. 두 확률 분포 중 하나는 다른 것보다 더 많은 분산을 갖는 것으로 순위가 매겨질 수 있으며, 또는 두 분포 모두 더 많은 분산을 갖는 것으로 순위가 매겨지지 않을 수도 있다.

참조

[1] 웹사이트 1.3.6.4. Location and Scale Parameters http://www.itl.nist.[...] U.S. Department of Commerce
[2] 웹사이트 Allan Variance -- Overview by David W. Allan http://www.allanstim[...] 2021-09-16
[3] 웹사이트 Hadamard Variance http://www.wriley.co[...] 2021-09-16
[4] 서적 Statistical Mechanics Harper & Row
[5] 논문 Increasing risk I: A definition



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com