맨위로가기

통계적 분류

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

통계적 분류는 주어진 데이터를 미리 정의된 범주 중 하나로 할당하는 데 사용되는 통계적 방법이다. 초기 연구는 로널드 피셔에 의해 이루어졌으며, 피셔의 선형 판별 함수를 통해 새로운 관측치를 그룹에 할당하는 규칙을 제시했다. 통계적 분류는 빈도주의적 절차와 베이지안 절차로 나뉘며, 이진 분류와 다중 분류 문제를 다룬다. 분류 알고리즘으로는 인공 신경망, 랜덤 포레스트, 선형 분류기 등이 있으며, 특징 벡터를 사용하여 각 인스턴스를 설명하고, 선형 분류기는 선형 함수를 사용한다. 통계적 분류는 특징 공간 분할, 예측 문제, 조건부 확률 추정 등 세 가지 수학적 문제를 해결하며, 오분류율 등을 통해 성능을 평가한다. 생물 분류, 컴퓨터 비전, 신용 평가 등 다양한 분야에서 활용된다.

더 읽어볼만한 페이지

  • 통계적 분류 - 서포트 벡터 머신
    서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다.
  • 통계적 분류 - 민감도와 특이도
    민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
  • 통계학에 관한 - 비지도 학습
    비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
  • 통계학에 관한 - 회귀 분석
    회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
  • 입력지원 - 인류학
    인류학은 인간의 생물학적, 문화적, 사회적 측면을 종합적으로 연구하는 학문으로, 형질인류학, 문화인류학, 고고학, 언어인류학 등의 분야로 나뉘어 인간의 진화, 문화적 다양성, 사회 조직, 언어의 기원과 발전을 탐구하며, 학제 간 연구를 통해 인간과 사회에 대한 포괄적인 이해를 추구한다.
  • 입력지원 - 양궁
    양궁은 활과 화살로 표적을 맞히는 스포츠로, 선사 시대부터 무기로 사용되다가 1538년 영국에서 스포츠로 발전하여 올림픽 정식 종목으로 채택되었으며, 대한민국에서는 1950년대 말부터 시작되어 국제 대회에서 경기가 열린다.
통계적 분류
개요
설명통계적 분류는 통계적 방법론을 사용하여 데이터 집합 내의 개별 관측치를 미리 정의된 범주 또는 그룹으로 할당하는 과정이다.
주요 목적데이터 분류
예측 분석
패턴 인식
관련 분야기계 학습
데이터 마이닝
패턴 인식
인공지능
통계적 분류 방법
지도 학습선형 판별 분석
나이브 베이즈 분류기
로지스틱 회귀
서포트 벡터 머신
결정 트리
랜덤 포레스트
인공신경망
비지도 학습클러스터 분석
k-평균 알고리즘
계층적 군집화
준지도 학습일부 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 활용
평가 지표
정확도전체 분류 중 정확하게 분류된 비율
정밀도양성으로 예측된 것 중 실제 양성 비율
재현율실제 양성 중 양성으로 정확하게 예측된 비율
F1 점수정밀도와 재현율의 조화 평균
AUC-ROCROC 곡선 아래 면적
활용 분야
의료질병 진단 및 예측
금융신용 위험 평가 및 사기 감지
자연어 처리텍스트 분류 및 감성 분석
이미지 인식이미지 분류 및 객체 인식
마케팅고객 세분화 및 타겟팅
추가 정보
학습 데이터셋분류 모델 학습에 사용되는 데이터셋
분류기데이터를 특정 그룹으로 분류하는 알고리즘 또는 모델
훈련 집합분류 모델을 학습하는 데 사용되는 데이터의 일부

2. 역사적 배경

통계적 분류에 대한 초기 연구는 로널드 피셔가 수행하였으며, 선형 판별 분석을 통해 새로운 관측치를 특정 그룹에 할당하는 규칙을 제시하였다.[1][2][3]

2. 1. 초기 연구 (피셔의 선형 판별 분석)

통계적 분류에 대한 초기 연구는 로널드 피셔가 두 그룹 문제의 맥락에서 수행했으며, 새로운 관측치에 그룹을 할당하기 위한 규칙으로 피셔의 선형 판별 함수를 이끌어냈다.[1][2][3] 이 초기 연구는 두 그룹 내의 데이터 값이 다변량 정규 분포를 따른다고 가정했다. 이후 두 그룹 이상으로 이러한 맥락을 확장하는 연구도 고려되었으며, 분류 규칙이 선형이어야 한다는 제약이 있었다.[3][4] 다변량 정규 분포에 대한 후속 연구에서는 분류기가 비선형이 될 수 있도록 허용했다.[5] 몇몇 분류 규칙은 마할라노비스 거리의 다양한 조정을 기반으로 도출될 수 있으며, 새로운 관측치는 관측치로부터 조정된 거리가 가장 짧은 중심을 가진 그룹에 할당된다.

2. 2. 다변량 정규 분포와 비선형 분류기

다변량 정규 분포에 대한 후속 연구에서는 비선형 분류기가 허용되었다.[5] 마할라노비스 거리를 기반으로 한 분류 규칙이 도출되었으며, 새로운 관측치는 조정된 거리가 가장 짧은 중심을 가진 그룹에 할당된다.

3. 통계적 분류의 유형

통계적 분류는 크게 빈도주의적 절차와 베이지안 절차로 나눌 수 있다.[6]

빈도주의적 절차는 로널드 피셔의 연구에서 시작되었으며, 피셔의 선형 판별 함수를 통해 새로운 관측치를 그룹에 할당하는 방법을 제시하였다.[1][2][3] 초기에는 다변량 정규 분포를 가정하고 선형 분류 규칙을 사용했지만, 이후 연구에서는 비선형 분류기도 허용되었다.[5]

베이지안 절차는 전체 모집단 내에서 서로 다른 그룹의 상대적 크기에 대한 정보를 고려한다.[6] 이는 계산 비용이 많이 드는 경향이 있었지만, 마르코프 체인 몬테카를로 계산 개발 이전에는 근사치가 사용되었다.[7] 일부 베이지안 절차는 그룹 구성원 확률을 계산하여 더 유익한 결과를 제공한다.

3. 1. 빈도주의적 절차 (Frequentist procedures)

통계적 분류에 대한 초기 연구는 로널드 피셔에 의해 두 그룹 문제의 맥락에서 수행되었으며, 새로운 관측치에 그룹을 할당하기 위한 규칙으로 피셔의 선형 판별 함수를 이끌어냈다.[1][2][3] 이 초기 연구는 두 그룹 내의 데이터 값이 다변량 정규 분포를 따른다고 가정했다. 두 그룹 이상으로 이러한 맥락을 확장하는 것도 고려되었으며, 분류 규칙이 선형이어야 한다는 제약이 부과되었다.[3][4] 다변량 정규 분포에 대한 후속 연구에서는 분류기가 비선형이 될 수 있도록 허용했다.[5] 몇몇 분류 규칙은 마할라노비스 거리의 다양한 조정을 기반으로 도출될 수 있으며, 새로운 관측치는 관측치로부터 조정된 거리가 가장 짧은 중심을 가진 그룹에 할당된다.

3. 2. 베이지안 절차 (Bayesian procedures)

확률적 분류 알고리즘은 통계적 추론을 사용하여 주어진 인스턴스에 대해 최상의 클래스를 찾는다. 이러한 알고리즘은 단순히 "최상의" 클래스를 출력하는 것이 아니라, 인스턴스가 가능한 각 클래스의 구성원일 확률을 출력한다. 최상의 클래스는 일반적으로 가장 높은 확률을 가진 클래스로 선택된다.[6]

빈도주의적 절차와 달리, 베이지안 분류 절차는 전체 모집단 내에서 서로 다른 그룹의 상대적 크기에 대한 이용 가능한 정보를 고려하는 자연스러운 방법을 제공한다. 베이지안 절차는 계산 비용이 많이 드는 경향이 있었으나, 마르코프 체인 몬테카를로 계산이 개발되기 전에는 베이지안 군집 규칙에 대한 근사치가 고안되었다.[7]

일부 베이지안 절차에는 그룹 구성원 확률 계산이 포함된다. 이는 각 새로운 관측치에 단일 그룹 레이블을 단순히 할당하는 것보다 더 유익한 결과를 제공한다.

4. 이진 분류와 다중 분류 (Binary and multiclass classification)

분류는 이진 분류와 다중 분류라는 두 가지 별개의 문제로 생각할 수 있다. 이진 분류는 더 잘 이해되는 작업으로, 두 개의 클래스만 포함하는 반면, 다중 분류는 여러 클래스 중 하나에 객체를 할당하는 것을 포함한다.[8] 많은 분류 방법이 특히 이진 분류를 위해 개발되었기 때문에, 다중 분류는 종종 여러 이진 분류기를 결합하여 사용해야 한다.

5. 특징 벡터 (Feature vectors)

대부분의 알고리즘은 개별 인스턴스의 측정 가능한 속성들로 구성된 특징 벡터를 사용하여 예측할 범주를 가진 개별 인스턴스를 설명한다. 각 속성은 특징이라고 하며, 통계에서는 설명 변수(독립 변수라고도 하지만, 특징은 통계적 독립성이 있을 수도 있고 없을 수도 있다)라고 한다. 특징은 다양하게 다음과 같을 수 있다.


  • 이진(예: "on" 또는 "off")
  • 범주형(예: 혈액형의 "A", "B", "AB" 또는 "O")
  • 순서형(예: "크다", "중간" 또는 "작다")
  • 정수값(예: 이메일에서 특정 단어가 나타나는 횟수)
  • 실수값(예: 혈압 측정값)


인스턴스가 이미지인 경우 특징 값은 이미지의 픽셀에 해당할 수 있으며, 인스턴스가 텍스트인 경우 특징 값은 다른 단어의 발생 빈도일 수 있다. 일부 알고리즘은 이산 데이터로만 작동하며 실수값 또는 정수값 데이터를 그룹으로 ''이산화''해야 한다(예: 5 미만, 5~10, 10 초과).

6. 선형 분류기 (Linear classifiers)

많은 알고리즘의 분류는 각 가능한 범주 ''k''에 점수를 할당하는 선형 함수로 표현될 수 있으며, 인스턴스의 특징 벡터를 가중치 벡터와 선형 결합하여 내적을 사용한다. 예측된 범주는 가장 높은 점수를 가진 범주이다. 이러한 유형의 점수 함수는 선형 예측 함수로 알려져 있으며 다음과 같은 일반적인 형태를 갖는다.

:\operatorname{score}(\mathbf{X}_i, k) = \boldsymbol\beta_k \cdot \mathbf{X}_i,

여기서 '''X'''''i''는 인스턴스 ''i''의 특징 벡터이고, '''β'''''k''는 범주 ''k''에 해당하는 가중치 벡터이며, score('''X'''''i'', ''k'')는 인스턴스 ''i''를 범주 ''k''에 할당하는 것과 관련된 점수이다. 이산 선택 이론에서 인스턴스는 사람을, 범주는 선택지를 나타내는 경우 점수는 사람 ''i''가 범주 ''k''를 선택하는 것과 관련된 효용으로 간주된다.

이러한 기본 설정을 가진 알고리즘을 선형 분류기라고 한다. 이들을 구별하는 것은 최적의 가중치/계수를 결정(훈련)하는 절차와 점수를 해석하는 방식이다.

이러한 알고리즘의 예로는 다음이 있다.

7. 분류 알고리즘 (Algorithms)

분류에는 다양한 알고리즘이 존재하며, 모든 데이터 집합에 적합한 단일 분류 알고리즘은 없다.[9] 알고리즘 선택은 정량적 정확도 평가를 기준으로 이루어진다.[9] 주요 알고리즘은 다음과 같다.

8. 분류 기법

분류 기법은 다양하지만, 이들은 공통적으로 세 가지 수학적 문제 중 하나를 해결한다.

첫째는 특징 공간에서 레이블로의 사상을 찾는 것이다. (하위 섹션 "특징 공간 분할"에서 자세히 설명)

둘째는 통계적 분류를 예측 문제로 보는 것이다. (하위 섹션 "예측 문제로서의 분류"에서 자세히 설명)

셋째는 조건부 확률을 추정하고 베이즈 정리를 사용하는 것이다. (하위 섹션 "조건부 확률 추정"에서 자세히 설명)

주요 통계적 분류 알고리즘은 다음과 같다.



분류해야 할 데이터의 특성과 분류 알고리즘(분류기)의 성능 간의 관계는 아직 명확하게 밝혀지지 않았다. 특정 인공 데이터 집합을 사용한 연구에서 어떤 분류기가 좋은 성능을 보이는지 확인한 사례가 있지만, 모든 문제에 대해 최고의 성능을 보이는 분류기는 존재하지 않는다. (무료 점심 정리 참고) 따라서, 분류기의 성능을 비교하고 데이터 특성을 파악하기 위한 다양한 실험적 검증이 필요하며, 특정 문제에 적합한 분류기를 찾는 것은 과학보다는 기술에 가깝다고 할 수 있다.

8. 1. 특징 공간 분할

분류 기법은 특징 공간(일반적으로 다차원 벡터 공간)에서 레이블 집합으로의 사상을 구하는 문제를 해결한다. 이는 특징 공간을 영역으로 분할하고 각 영역에 레이블을 할당하는 것과 같다. 이러한 알고리즘의 예시로는 k-최근접 이웃 알고리즘이 있다. k-최근접 이웃 알고리즘은 후처리를 하지 않으면 클래스 확률을 생성할 수 없는 것이 일반적이다. 이 문제를 해결하는 다른 알고리즘으로는 특징 공간에 대한 비지도 클러스터링을 적용하고, 그 후 각 클러스터 또는 영역에 레이블을 부착하는 방법이 있다.

8. 2. 예측 문제로서의 분류

통계적 분류를 일종의 예측 문제로 보고, 다음 형식의 함수를 예측하는 것을 목표로 한다.

:P|P영어(class|x|x영어) = f|f영어(x;θ)

여기서 특징 벡터 입력이 x|x영어이고, 함수 ''f''는 일반적으로 θ의 일부에 의해 매개변수화된다. 이 문제에 대한 베이즈 추정적 접근 방식에서는 유일한 매개변수 벡터 θ를 선택하는 것이 아니라, 생각할 수 있는 모든 θ의 적분이 결과가 되고, 각 θ는 훈련 데이터 ''D''에 의해 주어지는 확률로 가중치가 부여된다.

:P|P영어(class|x|x영어) = ∫f|f영어(x;θ)P|P영어(θ|D|D영어)d|d영어θ

8. 3. 조건부 확률 추정

조건부 확률 P(\vec x|{\rm class})를 추정한 뒤, 베이즈 정리를 이용해 클래스 확률을 생성한다.

9. 평가 방법 (Evaluation)

분류기의 성능은 오분류율(misclassification rate) 등으로 평가한다. 교차 검증은 분류 모델의 일반화 성능을 평가하는 데 사용되는 방법이다. 원래 데이터에서 하나만 제외하고 판별(모델)식을 얻고, 제외한 데이터를 새로운 데이터로 적용했을 때 타당한 결과가 얻어지는지를 검증하는, 하나 빼고 대입하는 방법(leave-one-out) 등이 일반적으로 사용된다.[1]

10. 응용 분야 (Application domains)

분류는 여러 응용 분야가 있다. 이 중 일부에서는 데이터 마이닝 절차로 사용되는 반면, 다른 경우에는 더 자세한 통계적 모델링이 수행된다.

11. 한국 사회와 통계적 분류

(원문 소스가 제공되지 않았고, 이전 결과물도 없으므로, '한국 사회와 통계적 분류' 섹션 내용을 작성할 수 없습니다.)

참조

[1] 논문 The Use of Multiple Measurements in Taxonomic Problems
[2] 논문 The Statistical Utilization of Multiple Measurements
[3] 서적 Methods for Statistical Data Analysis of Multivariate Observations Wiley
[4] 서적 Advanced Statistical Methods in Multivariate Analysis Wiley
[5] 서적 An Introduction to Multivariate Statistical Analysis Wiley
[6] 논문 Bayesian cluster analysis
[7] 논문 Approximations to Bayesian clustering rules
[8] 서적 Constraint Classification for Multiclass Classification and Ranking MIT Press
[9] 뉴스 A Tour of The Top 10 Algorithms for Machine Learning Newbies https://builtin.com/[...] 2018-01-20



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com