순서형 데이터
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
순서형 데이터는 리커트 척도와 같이 순서가 있는 범주로 측정되는 데이터로, 단순한 범주형 데이터와 달리 순서 정보를 포함한다. 순서형 데이터는 중앙값, 최빈값, 백분위수와 같은 위치 척도를 사용하여 분석하며, 비모수적 방법과 순위 측정 분석이 적합하다. 순서형 데이터 분석에는 비례 오즈 모형, 기준 범주 로짓 모형, 순서형 스테레오타입 모형, 인접 범주 로짓 모형과 같은 통계 모형이 사용되며, 막대 그래프, 원형 차트, 모자이크 플롯 등을 통해 시각화할 수 있다. 순서형 데이터는 설문 조사, 지능 지수, 성격 테스트 등 다양한 분야에서 활용된다.
더 읽어볼만한 페이지
- 통계 자료형 - 이진 데이터
이진 데이터는 통계학에서 범주형 데이터의 한 종류로 두 가지 값만을 가지며, 컴퓨터 과학에서는 텍스트 기반 데이터와 대조되는 모든 데이터를 의미한다. - 통계 자료형 - 측정 수준
측정 수준은 측정 대상의 속성을 숫자로 표현하는 척도로, 스티븐스의 유형론에 따라 명목, 서열, 구간, 비율 척도로 나뉘며, 각 척도별로 적용 가능한 연산과 분석 방법이 다르고 다양한 논쟁과 확장된 유형이 존재한다. - 토막글 틀에 과도한 변수를 사용한 문서 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다. - 토막글 틀에 과도한 변수를 사용한 문서 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다. - 토론 이름공간 토막글 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다. - 토론 이름공간 토막글 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.
| 순서형 데이터 | |
|---|---|
| 통계 데이터 유형 | |
| 유형 | 범주형 데이터 |
| 하위 유형 | 명목형, 순서형 |
| 값 | 범주 또는 순위 |
| 속성 | 비메트릭, 순서가 지정됨 |
| 중심 경향 | 중앙값 또는 최빈값 |
| 시각화 | 히스토그램 파이 차트 |
2. 순서형 데이터의 예시
리커트 척도는 순서형 데이터의 대표적인 예시이다. 리커트 척도는 설문 조사 등에서 자주 활용되며, 응답자들은 주어진 진술에 대한 동의 정도를 다음과 같이 순서가 있는 척도로 응답한다.[3]
| 매우 좋음 | 약간 좋음 | 보통 | 약간 나쁨 | 매우 나쁨 |
|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 |
순서형 데이터는 단순한 범주형 데이터와 달리 순서 정보를 포함하고 있으므로, 이를 고려한 분석 방법이 필요하다.[1] 변수의 자연스러운 순서를 통합하여 검정력 손실을 피해야 한다.[1] 순서형 데이터 표본의 평균을 계산하는 것은 권장되지 않으며, 중앙값이나 최빈값과 같은 다른 중심 경향성 척도가 일반적으로 더 적절하다.[5]
"귀하의 전반적인 건강 상태는 나쁨, 보통, 좋음, 매우 좋음 중 무엇입니까?"라는 질문에 대한 응답은 각각 1, 2, 3, 4로 나타낼 수 있다. 때로는 구간 척도 또는 비율 척도의 데이터를 순서형 척도로 묶기도 한다. 예를 들어 소득이 알려진 개인은 0–19,999달러, 20,000–39,999달러, 40,000–59,999달러 등으로 소득 범주로 묶을 수 있으며, 이는 다시 1, 2, 3, 4 등으로 나타낼 수 있다. 사회 경제적 지위, 군 계급, 과목의 성적 등도 순서형 데이터의 다른 예시이다.[4]
3. 순서형 데이터 분석 방법
3. 1. 일반적인 분석
스티븐스(1946)는 순서형 데이터에는 범주 간 거리가 동일하다는 가정이 적용되지 않으므로, 평균과 표준 편차를 사용한 추론 통계는 적절하지 않다고 주장했다.[2] 순서형 데이터 분석에는 명목 데이터에 적합한 기술 통계(사례 수, 최빈값, 연관성 상관 관계) 외에 중앙값 및 백분위수와 같은 위치 척도를 사용해야 한다.[2] 또한, 비모수적 방법(예: Kendall's W, 스피어만 순위 상관 계수)이 순위 측정 분석 등 순서형 데이터를 포함하는 추론 통계에 가장 적합한 절차로 제안되었다.[4]
3. 2. 단변량 통계
서열 데이터에 적합한 단변량 통계에는 중앙값,[8] 기타 백분위수(사분위수 및 십분위수 등),[8] 사분위 편차가 포함된다.[8] 서열 데이터에 대한 단일 표본 검정에는 콜모고로프-스미르노프 단일 표본 검정,[4] 단일 표본 런 검정,[4] 및 변화점 검정이 포함된다.[4]
3. 3. 이변량 통계
만-위트니 U 검정,[8] 런 검정,[8] 스미르노프 검정,[8] 부호 순위 검정[8]으로 두 개의 독립 표본에서 얻은 서열 척도 데이터의 분포 차이를 검정할 수 있다. 부호 검정[4]과 윌콕슨 부호 순위 검정[4]은 두 개의 관련 표본 또는 대응 표본에 대한 검정에 사용된다. 순위 기반 분산 분석[8]과 종키어 순서 대안 검정[4]은 독립 표본 ANOVA 대신 서열 척도 데이터를 사용하여 수행할 수 있다. 프리드만 이원 분산 분석[4]과 페이지 순서 대안 검정[4]은 두 개 이상의 관련 표본에 대한 검정에 포함된다. 켄달의 타우,[8] 감마,[8] ''rs''[8] 및 ''dyx/dxy''[8]는 두 개의 서열 척도 변수에 적합한 상관 관계 측정치이다.
3. 4. 회귀 분석
회귀 분석에서 결과(종속 변수)가 순서형 변수인 경우, 순서 로짓 또는 순서 프로빗과 같은 순서 회귀 모형을 사용하여 예측할 수 있다.[1] 다중 회귀/상관 분석에서 순서형 데이터는 거듭제곱 다항식과 점수 및 순위 정규화를 사용하여 처리할 수 있다.[1]
3. 5. 선형 추세
선형 추세는 분할표와 같은 순서형 데이터와 다른 범주형 변수 간의 연관성을 찾는 데에도 사용된다. 변수 간의 상관 관계 ''r''은 -1과 1 사이에 있다. 추세를 검정하기 위해 검정 통계량:[1]
:
이 사용되며, 여기서 ''n''은 표본 크기이다.
''R''은 를 행 점수로, 를 열 점수로 설정하여 구할 수 있다. 를 행 점수의 평균으로, 를 열 점수의 평균으로 한다. 그러면 는 주변 행 확률이고, 는 주변 열 확률이다. ''R''은 다음을 사용하여 계산한다.
:
3. 6. 분류 방법
정보 이론에서 사용되는 분산 함수를 통해 순서형 데이터 분류 방법이 개발되었다.[10] 이 방법은 데이터를 각 관측치가 서로 유사하도록 서로 다른 범주로 나누고, 각 그룹에서의 분산을 측정하고 최소화하여 분류 결과를 최대화한다.
4. 순서형 데이터 통계 모형
순서형 데이터의 구조를 설명하기 위해 다양한 통계 모형들이 사용된다.[11] 주요 모델은 네 가지로 나뉘며, 각 모델은 수준 로 인덱싱되는 임의 변수 에 대해 정의된다.
와 의 값은 동일한 데이터 세트에 대한 모든 모델에서 동일하지 않지만, 표기법은 서로 다른 모델의 구조를 비교하는 데 사용된다.
각 모델에 대한 자세한 설명은 아래와 같다.
- 비례 오즈 모형
- 기준 범주 로짓 모형
- 순서형 스테레오타입 모형
- 인접 범주 로짓 모형
모형 간 비교를 통해 각 모형의 특징과 차이점을 확인할 수 있다.
4. 1. 비례 오즈 모형 (Proportional Odds Model)
비례 오즈 모형은 순서형 데이터에 가장 일반적으로 사용되는 모형이다. 이 모형은 각 범주에 속할 누적 확률의 비율(오즈)이 공변량에 따라 선형적으로 변한다고 가정한다. 비례 오즈 모형은 다음과 같이 정의된다.:
여기서 는 순서형 데이터의 기본 분포를 나타내고, 는 공변량을 나타내며, 는 공변량의 효과를 나타내는 계수를 나타낸다.
이 모델은 대신 를 사용하여 모델을 정의함으로써 일반화할 수 있다. 이를 통해 명목형 데이터(범주에 자연적인 순서가 없는 경우)와 순서형 데이터 모두에 적합한 모델을 만들 수 있다. 그러나 이러한 일반화는 데이터를 모델에 맞추는 것을 훨씬 더 어렵게 만들 수 있다.
4. 2. 기준 범주 로짓 모형 (Baseline Category Logit Model)
기준 범주 로짓 모형은 특정 범주를 기준으로 다른 범주에 속할 확률의 비율을 모델링한다. 이 모형은 범주에 순서를 부여하지 않으므로 순서형 데이터와 명목형 데이터 모두에 적용될 수 있다.[1]:[1]
4. 3. 순서형 스테레오타입 모형 (Ordered Stereotype Model)
순서형 스테레오타입 모델은 다음과 같이 정의된다.:
여기서 점수 파라미터는 과 같이 제약된다.
이것은 기준 범주 로짓 모델보다 더 간결하고 전문화된 모델이다. 는 와 유사하다고 생각할 수 있다.
맞춤 점수 는 의 서로 다른 수준을 구별하는 것이 얼마나 쉬운지를 나타낸다. 만약 이라면, 이것은 공변량 에 대한 현재 데이터 집합이 수준 와 을 구별하는 데 많은 정보를 제공하지 않는다는 것을 나타낸다. 그러나 이것이 실제 값 와 이 멀리 떨어져 있다는 것을 '''반드시''' 의미하지는 않는다. 그리고 공변량 값이 변경되면 해당 새 데이터에 대해 맞춤 점수 와 이 멀리 떨어져 있을 수 있다.
4. 4. 인접 범주 로짓 모형 (Adjacent Categories Logit Model)
인접 범주 모형은 다음과 같이 정의된다.:
그러나, 애그레스티(2010)[11]에서 "비례 오즈 형태"라고 언급된 가장 일반적인 형태는 다음과 같이 정의된다.
:
이 모형은 순서형 데이터에만 적용할 수 있는데, 이는 한 범주에서 다음 범주로의 변화 확률을 모델링하는 것은 해당 범주들의 순서가 존재함을 의미하기 때문이다.
인접 범주 로짓 모형은 인 기준 범주 로짓 모형의 특수한 경우로 생각할 수 있다. 인접 범주 로짓 모형은 또한 인 순서화된 고정관념 모형의 특수한 경우로 생각할 수 있는데, 이는 간의 거리가 데이터에 기반하여 추정되는 대신 미리 정의됨을 의미한다.
4. 5. 모형 간 비교
비례 오즈 모형은 다른 모형들과 달리 기준 범주가 고정되지 않고, 각 범주에 따라 달라지는 특징을 가진다. 즉, 비례 오즈 모형에서는 \( Y \leq k \)가 \( Y > k \)와 비교되기 때문에 기준 범주의 크기가 \( k \)에 따라 달라진다. 반면 다른 모형에서는 기준 범주가 고정되어 \( Y=k \)가 \( Y=1 \) 또는 \( Y=k+1 \)과 비교된다.[1]5. 통계적 검정
순위 검정을 사용하여 순서형 데이터 간의 차이를 유의미하게 검정할 수 있다.
6. 순서형 데이터 시각화
서열 데이터는 여러 가지 방법으로 시각화할 수 있다. 일반적인 시각화 방법은 막대 그래프 또는 원형 차트이다. 표는 서열 데이터와 빈도를 표시하는 데에도 유용하다. 모자이크 플롯은 서열 변수와 명목형 또는 서열 변수 간의 관계를 보여주는 데 사용될 수 있다.[12] 범프 차트(한 시점부터 다음 시점까지 항목의 상대적 순위를 보여주는 선 차트) 또한 서열 데이터에 적합하다.[13]
색상 또는 그레이스케일 그라데이션은 데이터의 순서적 특성을 나타내는 데 사용될 수 있다. 소득 범위와 같은 단일 방향 척도는 단일 색상의 채도 또는 밝기가 증가(또는 감소)하는 막대 그래프로 나타낼 수 있으며, 이는 더 높은(또는 더 낮은) 소득을 나타낸다. 리카트 척도와 같은 이중 방향 척도로 측정된 변수의 서열 분포는 누적 막대 그래프에서 색상으로도 표시될 수 있다. 중립적인 색상(흰색 또는 회색)은 중간점(0 또는 중립)에 사용될 수 있으며, 중간점과 반대 방향으로 대비되는 색상을 사용하여 색상의 채도 또는 어두움이 증가하면 중간점에서 멀어지는 카테고리를 나타낼 수 있다.[14] 구역도 역시 색상 또는 그레이스케일 음영을 사용하여 서열 데이터를 표시한다.[15]



7. 순서형 데이터의 활용
순서형 데이터는 사회 및 행동 과학, 정부, 비즈니스 환경 등 범주형 데이터가 생성되는 대부분의 연구 분야에서 활용된다. 이러한 환경에서는 관찰, 테스트 또는 설문을 통해 사람들의 측정이 수집된다. 순서형 데이터는 설문 조사[16][17], 지능 지수, 적성, 성격 테스트, 의사 결정[18][3] 등에서 자주 수집된다.
Cliff의 델타 ''d''와 같은 효과 크기 지표는 순서형 데이터를 사용하여 통계적 우위를 측정하는 데 권장된다.[19]
참조
[1]
서적
Categorical Data Analysis
John Wiley & Sons
2013
[2]
논문
On the Theory of Scales of Measurement
[3]
서적
Psychological Testing and Assessment: An Introduction to Tests and Measurement
https://archive.org/[...]
Mayfield
[4]
서적
Nonparametric Statistics for the Behavioral Sciences
McGraw-Hill
[5]
논문
Likert scales: how to (ab)use them
http://eprints.gla.a[...]
2004-12
[6]
웹사이트
Measurement theory: Frequently asked questions
ftp://ftp.sas.com/pu[...]
1997-09-14
[7]
서적
Statistical Rules of Thumb
John Wiley & Sons
[8]
서적
Social Statistics
McGraw-Hill
[9]
서적
Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences
Lawrence Erlbaum Associates
[10]
논문
A Note on Classifying Ordinal-Scale Data
1979
[11]
서적
Analysis of Ordinal Categorical Data
Wiley
[12]
웹사이트
Plotting Techniques
http://www-stat.whar[...]
[13]
서적
Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations
Harvard Business Review Press
[14]
서적
Data Visualisation: A Handbook for Data Driven Design
SAGE
[15]
서적
The Truthful Art: Data, Charts, and Maps for Communication
New Riders
[16]
서적
Handbook of Survey Research
Emerald House
[17]
서적
Improving Survey Questions: Design and Evaluation
https://archive.org/[...]
Sage
[18]
논문
Ordinal Priority Approach (OPA) in Multiple Attribute Decision-Making
http://dx.doi.org/10[...]
2020-01
[19]
논문
Dominance statistics: Ordinal analyses to answer ordinal questions.
http://doi.apa.org/g[...]
1993-11
[20]
서적
Categorical Data Analysis
John Wiley & Sons
2013
[21]
논문
On the Theory of Scales of Measurement
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com