맨위로가기

산점도

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

산점도는 두 변수 간의 관계를 점으로 나타내는 그래프이다. 1833년 존 허셜이 최초로 사용했으며, 프랜시스 골턴 경에 의해 발전되었다. 산점도는 변수 간의 상관 관계를 파악하고, 이상점을 식별하는 데 유용하며, 양의 상관 관계, 음의 상관 관계를 시각적으로 보여준다. 두 특성을 가로축과 세로축으로 하여 관측값을 점으로 표시하며, 필요에 따라 추세선을 추가하여 변수 간의 관계를 명확하게 나타낼 수 있다. 통계학, 데이터 분석, 품질 관리 등 다양한 분야에서 활용되며, 데이터 변수 집합의 모든 쌍별 산점도를 행렬 형식으로 표시하는 산점도 행렬도 존재한다.

더 읽어볼만한 페이지

  • 품질 관리 - OpenVMS
    OpenVMS는 DEC에서 개발한 멀티유저, 멀티프로세싱 가상 메모리 기반 운영 체제로, 고도의 안정성, 보안성, 확장성을 특징으로 하며 다양한 아키텍처, 클러스터링, 네트워킹, 프로그래밍 언어 및 개발 도구를 지원한다.
  • 품질 관리 - 실험계획법
    실험계획법은 실험의 효율성과 신뢰성을 높이기 위해 실험 전 상세 계획을 세우는 방법론이며, 비교, 무작위화, 반복 등의 원칙을 기반으로 다양한 설계 방식을 활용하여 실험을 진행한다.
  • 통계 차트와 다이어그램 - 레이더 차트
    레이더 차트는 여러 변수의 상대적 크기를 시각적으로 비교하는 차트로, 중심점에서 방사형으로 뻗어나가는 축을 사용하여 데이터 패턴 파악, 유사성 비교, 이상치 탐색 등에 활용되지만, 면적 왜곡 등의 단점도 존재하여 데이터 해석 시 주의가 필요하다.
  • 통계 차트와 다이어그램 - 연표
    연표는 시간 순서에 따라 사건, 현상, 변화 등을 시각적으로 표현하는 방식으로, 역사 기록에서 시작하여 표 형태로 발전했으며 다양한 분야에서 활용되고 여러 형태로 정보를 제시한다.
산점도
개요
품질 특성 XXX에 대한 산점도
두 변수 사이의 관계를 보여주는 산점도
목적두 양적 변수 사이의 관계 유형 (있는 경우)을 식별하는 것
관련 항목상관 관계회귀 분석다변수 통계시각적 상관 관계
정의
유형그래프
데이터 유형이변량 양적 데이터
발명가존 허셜
추가 정보
관련 도구품질 관리의 7가지 기본 도구
다른 이름스캐터 플롯, 스캐터그램

2. 역사

마이클 프렌들리와 다니엘 데니스에 따르면, 산점도를 선 그래프와 구별하는 특징은 한 변수를 가로축에, 다른 변수를 세로축에 표시하는 이변량 데이터의 특정 관측치를 나타내는 것이다. 두 변수는 종종 표적에 박힌 총알의 확산, 지리적 또는 천체의 투영과 같은 물리적 표현에서 추상화된다.[4][5]

에드먼드 핼리(Edmund Halley)는 1686년에 온도와 압력의 이변량 그래프를 만들었지만, 그는 관계를 설명하는 데 사용된 특정 데이터 포인트를 생략했다. 프렌들리와 데니스는 그의 시각화가 실제 산점도와 다르다고 주장한다. 프렌들리와 데니스는 최초의 산점도를 존 허셜에게 귀속한다. 1833년, 허셜은 처녀자리의 중심별과 감마 처녀자리(Gamma Virginis) 사이의 각도를 시간에 따라 그래프로 그려 계산이 아닌 자유로운 그림과 인간의 판단을 통해 각도가 어떻게 변하는지 알아냈다.[4]

프랜시스 골턴 경(Sir Francis Galton)은 산점도와 기타 많은 통계 도구를 확장하고 대중화하여 우생학의 과학적 근거를 추구했다.[6] 1886년 골턴이 부모와 자녀의 키에 대한 산점도와 상관 타원도를 발표했을 때, 그는 인접한 셀을 묶고 평균을 내어 더 부드러운 시각화를 만들어 허셜의 단순한 데이터 점 플롯을 확장했다.[4] 칼 피어슨(Karl Pearson), R. A. 피셔(R. A. Fischer) 및 기타 통계학자와 우생학자들은 골턴의 작업을 바탕으로 상관 관계와 유의성 검정을 공식화했다.[6]

3. 특징

산점도는 두 변수 간의 관계를 한눈에 보여주어 직관적인 이해를 돕는다는 특징이 있다. 양의 상관 관계(우상향), 음의 상관 관계(우하향), 무상관 관계 (특정 패턴 없음) 등 다양한 관계를 파악할 수 있다.

실험 또는 관찰을 통해 데이터를 수집했을 때, 데이터의 전반적인 흐름에서 벗어나는 관측점인 이상점을 쉽게 발견할 수 있다. 예를 들어, 한국의 부동산 가격 데이터에서 특정 지역의 아파트 가격이 다른 지역에 비해 비정상적으로 높게 나타나는 경우가 이에 해당한다.

산점도는 상관 관계를 나타낼 뿐, 인과 관계를 의미하지는 않는다. 예를 들어, 한국에서 소득 수준과 교육 수준은 양의 상관 관계를 보이지만, 소득 수준이 높다고 해서 반드시 교육 수준이 높다고 단정할 수는 없다.[13]

3. 1. 표현 방법

상관관계에서 산점도는 두 변수 간의 관계를 통해 선형이나 비선형의 형태와 같은 수학적 모델을 확인해봄으로써 그 방향성과 강도를 조사할 수 있다. 각 데이터는 2개의 항목의 양이나 크기 등을 가진다. 일본 산업 규격에서는 "두 특성을 가로축과 세로축으로 하고, 관측값을 점으로 찍어 만드는 그래프 표시"로 정의하고 있다[12].

점을 원의 크기로 변환하여 양적인 데이터도 표현한 것을 버블 차트라고 한다[12].

4. 활용

산점도는 통계학, 데이터 분석, 품질 관리 등 다양한 분야에서 변수 간의 관계를 파악하고 예측 모델을 개발하는 데 활용된다.[8]


  • 생물통계학: 생물 정보학, 임상 시험, 역학 연구 등에서 활용된다. (예: 한국인의 유전형과 특정 질병 발생 위험 간의 관계 분석)
  • 공학통계학: 신뢰성 공학, 계량화학 등에서 활용된다.
  • 사회통계학: 인구 조사, 계량경제학, 심리측정학 등에서 활용된다. (예: 한국 사회의 소득 불평등과 사회적 이동성 간의 관계 분석)
  • 공간통계학: 지도학, 환경통계학, 지리 정보 시스템 등에서 활용된다. (예: 한국의 미세먼지 농도와 지역별 호흡기 질환 발병률 간의 관계 분석)

4. 1. 통계적 추론

상관관계에서 산점도는 두 개 변수 간의 관계를 통해 선형이나 비선형의 형태와 같은 수학적 모델을 확인해봄으로써 그 방향성과 강도를 조사할 수 있다.[13] 산점도는 특정 신뢰 구간을 갖는 변수 간의 다양한 종류의 상관 관계를 나타낼 수 있다. 상관 관계는 양의 상관 관계(상승), 음의 상관 관계(하강) 또는 무상관 관계(상관 없음)일 수 있다.

점들의 패턴이 왼쪽 아래에서 오른쪽 위로 기울어진다면, 이는 연구 중인 변수 간의 양의 상관 관계를 나타낸다. 점들의 패턴이 왼쪽 위에서 오른쪽 아래로 기울어진다면, 이는 음의 상관 관계를 나타낸다. 변수 간의 관계를 연구하기 위해 최적 적합 선(또는 '추세선')을 그릴 수 있다. 변수 간의 상관 관계에 대한 방정식은 확립된 최적 적합 절차를 통해 결정할 수 있다. 선형 상관 관계의 경우, 최적 적합 절차는 선형 회귀로 알려져 있으며 유한 시간 내에 정확한 해를 생성하도록 보장된다.

상관 분석과 회귀 분석
종류설명
피어슨 상관 계수두 변수 간의 선형 상관 관계의 강도와 방향을 측정한다.
스피어만 상관 계수두 변수 간의 순위 상관 관계의 강도와 방향을 측정한다.
선형 회귀한 변수를 다른 변수로 설명하거나 예측하는 선형 모델을 만든다.
비선형 회귀한 변수를 다른 변수로 설명하거나 예측하는 비선형 모델을 만든다.


4. 2. 품질 관리

산점도는 품질 관리에서 사용하는 7가지 기본 도구 중 하나이다.[8]

4. 3. 기타 활용 분야

산점도는 두 변수 간의 관계를 시각적으로 보여주는 유용한 도구이며, 다양한 분야에서 활용된다.

  • 생물통계학: 생물 정보학, 임상 시험, 역학 연구 등에서 활용된다. 예를 들어, 한국인의 유전형과 특정 질병 발생 위험 간의 관계를 분석하는 데 사용될 수 있다.
  • 공학통계학: 신뢰성 공학, 계량화학 등에서 활용된다.
  • 사회통계학: 인구 조사, 계량경제학, 심리측정학 등에서 활용된다. 예를 들어, 한국 사회의 소득 불평등과 사회적 이동성 간의 관계를 분석하는 데 사용될 수 있다.
  • 공간통계학: 지도학, 환경통계학, 지리 정보 시스템 등에서 활용된다. 예를 들어, 한국의 미세먼지 농도와 지역별 호흡기 질환 발병률 간의 관계를 분석하는 데 사용될 수 있다.


이 외에도 산점도는 품질 관리의 7가지 기본 도구 중 하나로 사용되기도 한다.[8]

5. 산점도 행렬

데이터 변수 집합(차원) ''X''1, ''X''2, ... , ''X''''k''에 대해, 산점도 행렬은 여러 산점도를 행렬 형식으로 나타내어 변수들 간의 모든 쌍별 산점도를 보여준다.[10] ''k''개의 변수가 있을 때, 산점도 행렬은 ''k''개의 행과 ''k''개의 열을 가진다. i번째 행과 j번째 열이 만나는 곳에 있는 그림은 변수 ''X''''i''와 ''X''''j''의 산점도이다. 즉, 각 행과 열은 하나의 차원을 나타내고, 각 셀은 두 차원의 산점도를 그린다.

3차원 데이터의 시각화와 해당 산점도 행렬


'''일반화된 산점도 행렬'''[11]은 범주형 변수와 양적 변수의 쌍별 조합을 다양하게 표시한다. 두 개의 범주형 변수는 모자이크 플롯, 변동 다이어그램 또는 면 분할된 막대 그래프를 사용하여 나타낼 수 있다. 다른 그림들은 하나의 범주형 변수와 하나의 양적 변수에 사용된다.

참조

[1] 웹사이트 Visualizations that have been created with VisIt https://wci.llnl.gov[...] wci.llnl.gov 2007-11-08
[2] 서적 Basic Statistics Wm. C. Brown Pub.
[3] 서적 Seeing Through Statistics Thomson Brooks/Cole
[4] 간행물 The early origins and development of the scatterplot 2005
[5] PDF https://www.datavis.[...] 2024-08
[6] 간행물 Emancipation Through Interaction — How Eugenics and Statistics Converged and Diverged http://www.jstor.org[...] 2009
[7] 서적 Visualizing data https://archive.org/[...] At & T Bell Laboratories Published by Hobart Press
[8] 웹사이트 Seven Basic Quality Tools http://www.asq.org/l[...] American Society for Quality 2010-02-05
[9] 웹사이트 Scatter Chart – AnyChart JavaScript Chart Documentation http://docs.anychart[...] AnyChart 2016-02-03
[10] 웹사이트 Scatter Plot Matrix http://www.itl.nist.[...] itl.nist.gov
[11] 간행물 The Generalized Pairs Plot 2013
[12] 뉴스 バブルチャート : 総務省統計局 https://www.stat.go.[...] 2021-08-17
[13] 뉴스 散布図 : 総務省統計局 https://www.stat.go.[...] 2021-08-17



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com