맨위로가기

이분변인

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

이분변인은 두 가지 범주 중 하나에 속하는 변수를 의미한다. 성별, 찬반, 유의미/무의미 등 다양한 예시가 있으며, 통계 처리를 위해 숫자 색인이 할당될 수 있다. 범주형 변수는 명목 척도에 해당하며, 최빈값은 구할 수 있지만 평균이나 중앙값은 정의되지 않는다. 이진 변수라고도 불리며, 베르누이 분포와 로지스틱 회귀 등의 모델을 사용한다. 회귀 분석에서 범주형 변수는 더미 코딩, 효과 코딩, 대비 코딩 등의 코딩 시스템을 통해 분석되며, 상호작용을 고려하여 분석할 수도 있다.

더 읽어볼만한 페이지

  • 통계 자료형 - 이진 데이터
    이진 데이터는 통계학에서 범주형 데이터의 한 종류로 두 가지 값만을 가지며, 컴퓨터 과학에서는 텍스트 기반 데이터와 대조되는 모든 데이터를 의미한다.
  • 통계 자료형 - 측정 수준
    측정 수준은 측정 대상의 속성을 숫자로 표현하는 척도로, 스티븐스의 유형론에 따라 명목, 서열, 구간, 비율 척도로 나뉘며, 각 척도별로 적용 가능한 연산과 분석 방법이 다르고 다양한 논쟁과 확장된 유형이 존재한다.
이분변인
범주형 변수
유형통계 변수
가능한 값의 수제한됨
하위 유형명목 변수
순서 변수
이분변인
유형통계 변수, 범주형 변수
다른 이름지표 변수
더미 변수
0-1 변수
가능한 값의 수2
0 또는 1 (일반적으로)
사용회귀 분석
통계 모델

2. 범주형 변수의 예시

범주형 변수는 값이 명확히 구분되는 몇 가지 범주나 집단으로 나뉘는 변수를 의미한다.[1] 예를 들어 사람의 성별이나 혈액형처럼 개인이 속하는 집단을 나타내거나, 주사위 눈의 값, 암석의 종류처럼 가능한 결과가 정해진 집합 중에서 선택되는 경우가 이에 해당한다. 또한, 정당 지지 여부, 특정 상태의 유무(예: 질병 유무, 합격/불합격), 의견 조사에서의 찬반 여부 등 다양한 사회 현상이나 연구 결과 분석에서도 폭넓게 활용된다.

2. 1. 일반적인 예시

2. 2. 한국 사회에서의 예시

한국 사회에서도 다양한 이분변인을 찾아볼 수 있다. 가장 기본적인 예시로 성별을 들 수 있으며, 이는 통계 조사 등에서 '남자'와 '여자' 두 가지 범주로 나누어 분석하는 경우가 많다.

정치적인 영역에서는 특정 시점에서의 여당과 야당 지지 여부가 이분변인의 예시가 될 수 있다.[1] 유권자의 정치적 성향이나 특정 정책에 대한 찬반 여부 역시 '찬성'과 '반대'의 두 가지 값으로 표현될 수 있다.

이 외에도 특정 시험의 '합격'과 '불합격', 특정 질병의 '유병'과 '무병' 상태 등 다양한 상황에서 이분변인이 활용된다.

3. 표기법

이분변인 중에는 연속변인이지만 통계 처리상 이분변인으로 다루어야 하는 경우도 있다.

통계 처리를 편리하게 하기 위해 범주형 변수에는 숫자 색인을 부여할 수 있다. 예를 들어, 정확히 ''K''개의 가능한 값을 가지는 ''K''-방향 범주형 변수에는 1부터 ''K''까지의 숫자를 할당하는 식이다. 하지만 이 숫자는 임의적이며, 단순히 각 값을 구분하기 위한 편리한 레이블일 뿐 다른 의미는 없다. 즉, 범주형 변수의 값은 명목 척도에 해당한다. 각 값은 논리적으로 구별되는 개념을 나타낼 뿐, 값들 사이에 순서를 매기거나 숫자로 연산하는 것은 의미가 없다.

따라서 범주형 변수에 적용할 수 있는 유효한 연산은 다음과 같다.


  • 동치 관계: 두 값이 같은지 비교하는 것 (예: 두 사람의 성별이 같은지 확인)
  • 집합 포함 관계: 특정 값이 주어진 목록에 포함되는지 확인하는 것 (예: 특정 이름이 명단에 있는지 확인)
  • 개수 세기: 특정 값을 가진 개체가 몇 개인지 세는 것 (예: 특정 성별을 가진 사람 수)
  • 최빈값 찾기: 가장 자주 나타나는 값이 무엇인지 찾는 것 (예: 가장 흔한 이름 찾기)


반면, 범주형 변수 값으로는 평균이나 중앙값을 계산할 수 없다. 예를 들어, 여러 사람의 이름(범주형 변수)이 주어졌을 때, 'Smith + Johnson' 같은 덧셈 연산을 하거나 'Smith가 Johnson보다 작다/크다'와 같이 크기를 비교하는 것은 불가능하다. 따라서 이름들의 '평균 이름'이나 '가장 중간 이름'을 구하는 것은 의미가 없다.

이름을 알파벳순으로 정렬하는 것은 이름 자체의 속성이 아니라 이름을 표기하는 방식(예: 라틴 문자)과 그 순서 규칙에 따른 것이다. 만약 이름을 키릴 문자나 중국어 간체자로 표기하고 해당 문자 체계의 규칙을 적용하면 정렬 결과는 달라지거나 정렬 자체가 불가능할 수 있다. 하지만 특정 표기법(예: 라틴 문자)과 정렬 규칙(예: 알파벳 순서)을 기준으로 순서를 정의하면, 이는 사실상 해당 변수를 서열 변수처럼 서열 척도로 다루는 것이 된다.

4. 가능한 값의 수

범주형 확률 변수는 가능한 값의 수에 따라 분류될 수 있다.


  • 이진 변수 (Binary Variable) 또는 베르누이 변수 (Bernoulli Variable): 오직 두 가지 가능한 결과만을 가지는 변수이다. 예를 들어, '성공'과 '실패', '예'와 '아니오', '참'과 '거짓'과 같은 논리값, 성별 구분에서의 '남성'과 '여성', 정치적 성향에서의 '여당'과 '야당', 또는 유의미와 무의미를 나타내는 1과 0 등이 있다.[1] 이러한 변수들은 통계적으로 베르누이 분포를 따르며, 로지스틱 회귀나 프로빗 모형 같은 특정 회귀 모델을 사용하여 분석한다. 때로는 연속변인임에도 불구하고 특정 기준에 따라 두 범주로 나누어 이진 변수로 취급해야 하는 경우도 있다.[2]
  • 다항 변수 (Polytomous Variable): 세 가지 이상의 가능한 값을 가지는 범주형 변수이다. 예를 들어, 혈액형(A, B, AB, O)이나 선호하는 정당 등이 있다. 통계학에서는 종종 '범주형 변수'라는 용어가 이러한 다항 변수를 지칭하는 데 사용되기도 한다.[3] 다항 변수는 각 범주에 대한 확률을 명시하는 범주형 분포로 설명되며, 여러 범주의 발생 빈도를 분석할 때는 다항 분포를 사용한다. 다항 변수를 결과로 하는 회귀 분석에는 다항 로지스틱 회귀, 프로빗 모형, 또는 이산 선택 모델 등이 활용된다.[3]


일반적으로 범주형 변수를 다루는 통계 모델들은 가능한 범주의 수가 미리 정해져 있다고 가정한다. 그러나 실제 문제에서는 범주의 수가 미리 알려지지 않은 경우도 있다. 예를 들어, 텍스트 분석에서 특정 단어를 설명하는 범주형 변수를 다룰 때, 분석 과정에서 새로운 단어(즉, 새로운 범주)가 계속 나타날 수 있다. 이러한 상황에서는 범주형 분포나 다항 로지스틱 회귀와 같은 표준적인 모델을 적용하기 어렵다. 이 경우, 비모수 통계 분야의 디리클레 과정(Dirichlet process)과 같은 더 고급 기법을 사용해야 한다. 이 접근법은 이론적으로 무한히 많은 범주가 존재할 수 있다고 가정하지만, 실제 분석은 현재까지 관찰된 유한한 수의 범주를 기반으로 이루어지며, 새로운 범주가 나타나면 모델을 점진적으로 업데이트할 수 있는 방법을 제공한다.

5. 범주형 변수와 회귀 분석

이분변인 중에는 연속변인이지만 이분변인으로 다루어야 하는 경우도 있다.

범주형 변수는 데이터를 범주나 그룹 멤버십으로 나누어 점수화하는 질적 데이터 처리 방식이다.[2] 이러한 변수는 회귀 분석에서 독립 변수로 사용되거나, 로지스틱 회귀 또는 프로빗 회귀 분석에서 종속 변수로 사용될 수 있다. 통계 분석을 위해서는 범주형 데이터를 양적 데이터로 변환해야 하며, 이때 코딩 시스템이 활용된다. 일반적으로 그룹 수(''g'')보다 하나 적은 ''g'' - 1개의 변수만 코딩하여 중복성을 최소화한다.[2]

회귀 분석에서 범주형 변수를 다룰 때 주로 더미 코딩, 효과 코딩, 대비 코딩과 같은 시스템이 사용된다. 회귀 분석의 기본 방정식은 ''Y = bX + a'' 형태로 표현되는데, 여기서 ''b''는 기울기(설명 변수에 부여된 가중치), ''X''는 설명 변수, ''a''는 Y 절편을 의미한다. 어떤 코딩 시스템을 선택하는지에 따라 ''a''와 ''b'' 값의 해석은 달라지지만, 분석의 전반적인 설명력(예: ''F'' 값이나 ''R''2 값)에는 영향을 주지 않는다. 따라서 연구자가 비교하고자 하는 대상과 목적에 맞춰 적절한 코딩 시스템을 선택하는 것이 중요하다.[2]

5. 1. 코딩 시스템

범주형 변수는 데이터를 범주나 그룹으로 나누는 질적 데이터를 다루는 방식이다. 이는 회귀 분석의 독립 변수나 로지스틱 회귀 또는 프로빗 회귀의 종속 변수로 사용될 수 있지만, 분석을 위해서는 양적 데이터로 변환해야 한다. 이때 코딩 시스템을 사용하며, 일반적으로 그룹의 수(''g'')보다 하나 적은 ''g'' - 1개의 변수만 코딩한다. 이는 중복을 피하면서 전체 데이터를 충분히 나타낼 수 있기 때문이다. 예를 들어, 성별(''g'' = 2: 남성, 여성)을 코딩할 때 여성만 코딩하면 나머지는 자연스럽게 남성이 된다. 보통 코딩하지 않는 그룹은 연구자의 관심이 가장 적은 그룹이다.[2]

회귀 분석에서 범주형 변수를 다루는 데 주로 사용되는 코딩 시스템은 더미 코딩(Dummy coding), 효과 코딩(Effects coding), 대비 코딩(Contrast coding) 세 가지이다. 회귀 방정식은 ''Y = bX + a'' 형태를 가지는데, 여기서 ''b''는 기울기로 설명 변수에 부여된 가중치를 나타내고, ''X''는 설명 변수, ''a''는 ''Y''-절편이다. 이 값들의 의미는 사용하는 코딩 시스템에 따라 달라진다. 어떤 코딩 시스템을 선택하든 ''F'' 값이나 ''R''2 값에는 영향을 주지 않지만, ''b'' 값의 해석이 달라지므로 연구자가 비교하고자 하는 대상에 맞춰 코딩 시스템을 선택해야 한다.[2]

=== 더미 코딩 (Dummy Coding) ===

더미 코딩은 특정 통제 집단(기준 집단)을 설정하고, 다른 집단들을 이 기준 집단과 비교할 때 사용된다. 즉, 비교 집단을 기준으로 다른 집단의 데이터를 분석하는 방식이다. 이 코딩 방식에서 ''a''는 통제 집단의 평균을 나타내고, ''b''는 실험 집단의 평균과 통제 집단의 평균 간의 차이를 의미한다. 적절한 통제 집단을 설정하기 위해서는 세 가지 기준을 만족해야 한다. 첫째, 해당 집단은 명확하게 정의된 집단이어야 하며(예: '기타' 범주가 아님), 둘째, 이 집단을 비교 기준으로 삼을 논리적 이유가 있어야 하고(예: 해당 집단이 종속 변수에서 가장 높은 점수를 받을 것으로 예상됨), 셋째, 해당 집단의 표본 크기가 다른 집단에 비해 충분히 커야 한다.[3] 한국의 경우, 특정 지역(예: 서울)이나 특정 연령대(예: 30대)를 기준 집단으로 설정하여 다른 지역/연령대와 비교하는 연구가 진행될 수 있다.더미 코딩에서는 기준 집단에 각 코드 변수 값으로 0을 할당한다. 기준 집단과 비교하려는 특정 집단에는 해당 코드 변수에 1을 할당하고, 나머지 다른 모든 집단에는 0을 할당한다.[2]

''b'' 값은 실험 집단이 통제 집단과 비교되고 있음을 나타낸다. 만약 ''b'' 값이 음수(-)라면, 실험 집단이 종속 변수에서 통제 집단보다 낮은 점수를 받았다는 의미이다. 예를 들어, 여러 국적의 사람들의 낙관주의 수준을 측정하고 프랑스인을 통제 집단으로 설정했다고 가정해보자. 만약 이탈리아인과 비교했을 때 음수 ''b'' 값이 나왔다면, 이는 이탈리아인의 평균 낙관주의 점수가 프랑스인보다 낮다는 것을 의미한다.

다음 표는 '프랑스'를 통제 집단으로 하고, C1, C2, C3이 각각 '이탈리아', '독일', '기타'(프랑스, 이탈리아, 독일 외)를 나타내는 더미 코딩의 예시이다.

국적C1C2C3
프랑스000
이탈리아100
독일010
기타001



=== 효과 코딩 (Effects Coding) ===

효과 코딩 시스템에서는 특정 기준 집단 없이, 한 그룹을 다른 모든 그룹의 평균과 비교하여 분석한다. 즉, 모든 그룹의 평균을 결합하여 비교가 이루어지며, ''a''는 전체 평균을 나타낸다. 따라서 개별 그룹을 다른 특정 그룹과 비교하는 것이 아니라, 전체 평균과 비교하여 데이터를 해석한다.[2]

효과 코딩은 가중(weighted) 또는 비가중(unweighted) 방식으로 사용할 수 있다. 가중 효과 코딩은 각 그룹의 표본 크기를 고려하여 가중 전체 평균을 계산하는 방식이며, 표본이 모집단을 잘 대표할 때 적합하다. 비가중 효과 코딩은 표본 크기의 차이가 우연한 요인에 의한 것일 때 주로 사용된다. ''b''의 해석은 두 방식에서 다르다. 비가중 효과 코딩에서 ''b''는 특정 그룹의 평균과 전체 평균 간의 차이를 나타내고, 가중 효과 코딩에서는 특정 그룹의 평균과 가중 전체 평균 간의 차이를 나타낸다.[2]

효과 코딩에서는 더미 코딩과 마찬가지로 관심 있는 그룹에 1을 할당한다. 가장 큰 차이점은 연구자의 관심이 가장 적은 그룹(보통 ''g'' - 1 코딩 규칙에 따라 명시적으로 코딩되지 않는 그룹)에 −1을 할당한다는 점이다. 나머지 다른 모든 그룹에는 0을 할당한다.

''b'' 값은 코딩된 그룹이 모든 그룹의 결합된 평균(또는 가중 효과 코딩의 경우 가중 전체 평균)과 비교되는 방식으로 해석해야 한다. 따라서 음수 ''b'' 값이 나오면, 해당 그룹이 종속 변수에서 전체 평균보다 낮은 점수를 받았다는 것을 의미한다. 앞서 예시로 든 국적별 낙관주의 점수 연구에서 이탈리아인을 관심 그룹으로 코딩했을 때 음수 ''b'' 값이 관찰된다면, 이탈리아인이 평균적으로 다른 국적 전체 평균보다 낮은 낙관주의 점수를 얻었다는 것을 시사한다.

다음 표는 가장 관심이 없는 그룹으로 '기타'를 사용하는 효과 코딩의 예시이다.

국적C1C2C3
프랑스001
이탈리아100
독일010
기타−1−1−1



=== 대비 코딩 (Contrast Coding) ===

대비 코딩 시스템은 연구자가 특정 가설에 따라 직접 그룹 간 비교를 설계할 수 있도록 한다. 더미 코딩처럼 정해진 기준 집단과 비교하거나 효과 코딩처럼 전체 평균과 비교하는 대신, 연구자는 이론이나 선행 연구에 기반하여 특정 질문에 답하기 위한 고유한 비교 방식을 설정할 수 있다. 이러한 가설은 보통 두 가지 형태로 나타난다. 첫째는 특정 두 그룹 간에 유의미한 차이가 있을 것이라는 가설이고, 둘째는 각 그룹 내에서는 그룹 간 차이가 작을 것이라는 가설이다. 선험적 가설에 초점을 맞춘 대비 코딩은 다른 코딩 방식에 비해 통계적 검정력을 높일 수 있다.[2] 진보적 관점에서는 특정 정책(예: 최저임금 인상)의 효과를 검증하기 위해, 정책 시행 전후의 변화를 비교하는 연구 설계에 활용될 수 있다.분산 분석(ANOVA)과 회귀 분석에서 선험적 계수를 비교할 때 차이점이 있다. ANOVA에서는 연구자가 직교 또는 비직교 계수를 선택할 수 있지만, 회귀 분석의 대비 코딩에서는 할당된 계수 값이 반드시 직교해야 한다. 또한, 회귀 분석에서는 계수 값이 분수 또는 소수 형태여야 하며, 정수 구간 값을 가질 수 없다.

대비 코드를 구성할 때는 세 가지 규칙을 따라야 한다.

# 각 코드 변수에 할당된 대조 계수들의 합은 0이어야 한다.

# 양수(+) 계수의 합과 음수(-) 계수의 합의 차이는 1이어야 한다.

# 코딩된 변수들은 서로 직교해야 한다.[2]

만약 규칙 2를 위반하더라도 정확한 ''R''2 값과 ''F'' 값이 산출되어 통계적 유의성 여부에 대한 결론은 동일하게 나올 수 있다. 하지만 이 경우 ''b'' 값을 더 이상 평균 차이로 해석할 수 없게 된다.

대비 코드 구성을 설명하기 위해 다음 표를 보자. 계수는 선험적 가설을 반영하여 선택되었다.


  • 가설 1: 프랑스인과 이탈리아인은 독일인보다 낙관주의 점수가 더 높을 것이다 (프랑스 = +0.33, 이탈리아 = +0.33, 독일 = −0.66). 이는 프랑스와 이탈리아에 같은 양수 계수를, 독일에 음수 계수를 할당하여 표현된다. 부호는 예상되는 관계의 방향을 나타낸다(독일의 음수 부호는 낮은 점수를 예상함).
  • 가설 2: 프랑스인과 이탈리아인 간에도 낙관주의 점수 차이가 있을 것이다 (프랑스 = +0.50, 이탈리아 = −0.50, 독일 = 0). 여기서 독일에 0을 할당한 것은 이 가설 분석에서 독일인을 제외한다는 의미이다. 부호는 제안된 관계를 나타낸다.


국적C1C2
프랑스+0.33+0.50
이탈리아+0.33−0.50
독일−0.660


5. 2. 상호작용 (Interactions)

상호작용은 세 개 이상의 변수 간의 관계를 고려할 때 발생할 수 있으며, 두 변수가 세 번째 변수에 미치는 동시적인 영향이 덧셈으로 설명되지 않는 상황을 의미한다. 이분변인과 같은 범주형 변수에서는 상호작용이 두 가지 방식으로 나타날 수 있다. 첫째는 범주형 변수들 사이의 상호작용이고, 둘째는 범주형 변수와 연속변인 사이의 상호작용이다.

두 개의 범주형 변수가 서로 영향을 미치는 상호작용을 분석하기 위해 연구자는 자신의 가설에 가장 적합한 코딩 시스템을 사용할 수 있다. 각 변수에 할당된 코드 값을 곱하여 상호작용 항을 생성한다. 이후 회귀 분석 등을 통해 상호작용 항의 계수(''b'' 값)를 계산하고, 이 값이 통계적으로 유의미한지 판단하여 상호작용 효과의 존재 여부를 확인할 수 있다.[2]

범주형 변수와 연속형 변수 간의 상호작용은 '단순 기울기 분석'이라는 방법을 통해 주로 분석된다. 단순 기울기 분석은 회귀 분석에서 사용되는 일반적인 사후 검정 기법으로, 분산 분석(ANOVA)에서의 단순 효과 분석과 유사한 역할을 한다. 이 분석은 특정 독립 변수가 종속 변수에 미치는 영향(기울기)이 다른 독립 변수의 값에 따라 어떻게 달라지는지를 조사한다.[2] 단순 기울기 분석은 연속형 변수뿐만 아니라 범주형 독립 변수가 포함된 상호작용을 분석하는 데에도 유용하게 사용될 수 있다. 연속형 변수의 경우 보통 평균값, 평균값 +1 표준편차, 평균값 -1 표준편차 등 특정 지점에서의 기울기를 계산하지만, 범주형 변수는 이러한 방식이 적용되지 않는다. 대신, 범주형 변수의 각 그룹(범주)별로 별도의 단순 회귀 방정식을 추정하여 각 그룹에서의 연속형 변수의 기울기를 비교하는 방식으로 상호작용을 분석한다.[2] 분석 결과를 더 쉽게 해석하기 위해 연속형 변수는 표준화하거나 중심화(centering)하는 경우가 많지만, 범주형 변수는 절대로 표준화하거나 중심화해서는 안 된다는 점에 유의해야 한다. 단순 기울기 분석은 연구 목적에 맞는 다양한 코딩 시스템 하에서 모두 적용될 수 있다.[2]

참조

[1] 서적 The Practice of Statistics http://bcs.whfreeman[...] Freeman 2014-09-28
[2] 서적 Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.) Routledge
[3] 서적 Regression with dummy variables Sage



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com