문서 분류

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

문서 분류는 문서를 특정 범주로 자동적으로 분류하는 기술을 의미하며, 지도, 비지도, 준지도 분류 방식으로 나뉜다. 내용 기반 분류와 요청 기반 분류로 구분할 수 있으며, 문서 분류와 주제 색인은 종종 동일한 개념으로 간주된다. 자동 문서 분류에는 다양한 기계 학습 및 자연어 처리 기법이 사용되며, 스팸 필터링, 이메일 라우팅, 언어 식별, 장르 분류, 가독성 평가, 감성 분석, 공중 보건 감시, 생물학 분야 등 다양한 분야에 응용된다.

문서 분류

📚 더 읽어볼만한 페이지

데이터 마이닝 - 클러스터 분석
클러스터 분석은 유사한 특성을 가진 데이터 객체들을 그룹으로 묶는 기계 학습 기법으로, 다양한 알고리즘과 모델을 기반으로 하며 여러 분야에서 활용되고 클러스터링 결과는 다양한 방식으로 평가된다.
데이터 마이닝 - 이상 탐지
이상 탐지는 일반적인 관측치와 다른 이상치를 식별하여 침입 탐지, 사기 탐지 등에 활용되며, 통계적 방법, 밀도 기반 방법 등 다양한 방법이 존재하고 성능 평가를 위한 공개 데이터 세트가 사용된다.
지식 표현 - 시소러스
시소러스는 특정 단어나 개념의 유의어, 상위어, 하위어를 모아놓은 사전으로, 어휘의 의미 관계를 보여주며 글쓰기, 번역 등 다양한 분야에 활용된다.
지식 표현 - 시맨틱 네트워크
시맨틱 네트워크는 개념 간의 관계를 표현하는 지식 표현 방법으로, 노드와 링크를 사용하여 지식을 구조화하며 인공지능, 언어학 등 다양한 분야에서 활용된다.
자연어 처리 - 정보 추출
정보 추출은 비정형 또는 반구조화된 텍스트에서 구조화된 정보를 자동으로 추출하는 기술로, 자연어 처리 기술을 활용하여 개체명 인식, 관계 추출 등의 작업을 수행하며 웹의 방대한 데이터에서 유용한 정보를 얻는 데 사용된다.
자연어 처리 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.

2. 자동 문서 분류의 유형

자동 문서 분류는 크게 지도 문서 분류, 비지도 문서 분류(문서 클러스터링이라고도 함), 준지도 문서 분류의 세 가지 유형으로 나눌 수 있다. 지도 문서 분류는 사람의 피드백과 같이 외부 메커니즘이 문서의 올바른 분류에 대한 정보를 제공하는 방식이고, 비지도 문서 분류는 외부 정보 참조 없이 분류를 수행하는 방식이며, 준지도 문서 분류는 문서의 일부가 외부 메커니즘에 의해 레이블이 지정되는 방식이다. 다양한 라이선스 모델에 따라 여러 소프트웨어 제품이 사용 가능하다.

2.1. 지도 문서 분류 (Supervised Document Classification)

지도 문서 분류는 사람이 직접 문서의 정답 범주(label)를 제공하여 기계를 학습시키는 방식이다. 이 방식에서는 일부 외부 메커니즘(예: 사람의 피드백)이 문서의 올바른 분류에 대한 정보를 제공한다.

문서 분류에 사용되는 기법은 다음과 같다.

* 단순 베이즈 분류기
* TF-IDF
* 잠재 의미 분석
* 서포트 벡터 머신
* 신경망
* K-최근접 이웃 알고리즘
* 결정 트리 (예: ID3)
* 개념 마이닝

이 외에도, 자연어 처리에 기반한 기법이 있다.

2.2. 비지도 문서 분류 (Unsupervised Document Classification)

정답 범주 없이 기계가 스스로 문서 간의 유사성을 파악하여 분류하는 방식이다. 문서 클러스터링이라고도 한다. 외부 정보를 참조하지 않고 분류를 완전히 수행해야 한다.

2.3. 준지도 문서 분류 (Semi-supervised Document Classification)

준지도 문서 분류는 일부 문서에만 정답 범주를 제공하고, 나머지는 기계가 스스로 학습하여 분류하는 방식이다.

문서 분류에 사용되는 기법은 다음과 같다.

* 단순 베이즈 분류기
* TF-IDF
* 잠재 의미 분석
* 서포트 벡터 머신
* 신경망
* K-최근접 이웃 알고리즘
* 결정 트리 (예: ID3)
* 개념 마이닝

이 외에도, 자연어 처리에 기반한 기법이 있다.

3. 내용 기반 분류와 요청 기반 분류

자동 문서 분류는 내용 기반 분류와 요청 기반 분류로 나눌 수 있다.

내용 기반 분류는 문서 내 특정 주제에 부여된 가중치를 기준으로 문서를 분류한다. 예를 들어, 도서관에서 책 내용의 20% 이상이 해당 클래스와 관련 있어야 한다는 규칙이 있을 수 있다. 자동 분류에서는 특정 단어의 출현 빈도가 내용 기반 분류의 지표가 될 수 있다.

요청 기반 분류는 사용자의 예상 검색어가 문서 분류에 영향을 미치는 방식이다. 분류자는 "이 문서는 어떤 검색어에서 찾아야 하는가?"와 "가능한 모든 검색어를 고려하여 해당 문서와 관련된 검색어를 결정하라"는 질문을 던진다. 요청 기반 분류는 특정 사용자 그룹을 대상으로 할 수 있으며, 예를 들어 페미니즘 연구 도서관은 역사 도서관과 다르게 문서를 분류할 수 있다. 그러나 요청 기반 분류는 정책 기반 분류, 즉 특정 이상에 따라 분류를 수행하고 도서관이나 데이터베이스의 목적을 반영하는 방식으로 이해하는 것이 더 적절할 수 있다. 사용자 연구를 기반으로 하지 않은 분류 방식이며, 사용 데이터가 적용되는 경우에만 사용자 기반 접근 방식으로 간주해야 한다.

문서 분류 기법에는 단순 베이즈 분류기, TF-IDF, 잠재 의미 분석, 서포트 벡터 머신, 신경망, K-최근접 이웃 알고리즘, 결정 트리(예: ID3), 개념 마이닝 등이 있으며, 자연어 처리 기반 기법도 활용된다.

3.1. 내용 기반 분류 (Content-based Classification)

내용 기반 분류는 문서 내 특정 주제에 부여된 가중치가 해당 문서가 할당될 클래스를 결정하는 분류 방식이다. 예를 들어, 도서관에서 책 내용 중 최소 20%가 책이 할당된 클래스에 관한 내용이어야 한다는 것은 일반적인 분류 규칙이다. 자동 분류의 경우, 특정 단어가 문서에 나타나는 횟수가 내용 기반 분류의 지표가 될 수 있다.

문서 분류에 사용되는 기법으로는 다음과 같은 것들이 있다.

* 단순 베이즈 분류기
* TF-IDF
* 잠재 의미 분석
* 서포트 벡터 머신
* 신경망
* K-최근접 이웃 알고리즘
* 결정 트리 (예: ID3)
* 개념 마이닝

이 외에도, 자연어 처리에 기반한 기법이 있다.

3.2. 요청 기반 분류 (Request-based Classification)

요청 기반 분류는 사용자가 어떤 검색어 (질의)를 사용할 때 해당 문서가 관련이 있는지를 고려하여 분류하는 방식이다. 분류자는 "이 문서는 어떤 검색어 아래에서 찾아야 하는가?"와 "가능한 모든 검색어를 생각하고 해당 문서가 관련이 있는 검색어를 결정하라"는 질문을 던진다.

요청 기반 분류는 특정 사용자 그룹을 대상으로 할 수 있다. 예를 들어, 페미니즘 연구 도서관은 역사 도서관과 비교하여 문서를 다르게 분류할 수 있다. 그러나 요청 기반 분류는 정책 기반 분류로 이해하는 것이 더 적절할 수 있다. 즉, 분류는 특정 이상에 따라 수행되며, 분류를 수행하는 도서관 또는 데이터베이스의 목적을 반영한다. 사용자 연구를 기반으로 한 분류나 색인이 아닌 방식이다. 사용 또는 사용자에 대한 실증적 데이터가 적용되는 경우에만 요청 기반 분류를 사용자 기반 접근 방식으로 간주해야 한다.

4. 분류와 색인

문서를 분류하는 것("분류")과 문서를 주제에 할당하는 것("주제 색인")은 때때로 구별되지만, 사실상 같은 작업이다. 문서에 레이블을 지정하는 행위(예: 통제 어휘에서 용어를 문서에 할당하는 것)는 동시에 해당 문서를 해당 용어로 색인된 문서 클래스에 할당하는 것이다.

4.1. 프레데릭 윌프리드 랭커스터의 견해

프레데릭 윌프리드 랭커스터는 문서를 분류하는 것("분류")과 문서에 주제를 할당하는 것("주제 색인") 사이의 구분이 무의미하다고 주장했다. 그는 "이러한 용어상의 구분은 아무 의미가 없으며 혼란을 야기할 뿐이다."라고 썼다. 이러한 구분이 피상적이라는 견해는 분류 시스템이 테소러스로 변환될 수 있고 그 반대도 가능하다는 사실로 뒷받침된다. 따라서 문서에 레이블을 지정하는 행위(예: 통제 어휘에서 용어를 문서에 할당하는 것)는 동시에 해당 문서를 해당 용어로 색인된 문서 클래스에 할당하는 것이다(X로 색인되거나 분류된 모든 문서는 동일한 문서 클래스에 속한다).

4.2. 테소러스와의 관계

프레데릭 윌프리드 랭커스터는 "이러한 용어상의 구분은 아무 의미가 없으며 혼란을 야기할 뿐이다."라고 썼다. 분류 체계는 테소러스로 변환될 수 있고 그 반대도 가능하다는 사실은 이러한 구분이 순전히 피상적이라는 견해를 뒷받침한다. 따라서 문서에 레이블을 지정하는 행위(예: 통제 어휘에서 용어를 문서에 할당하는 것)는 동시에 해당 문서를 해당 용어로 색인된 문서 클래스에 할당하는 것이다. 이는 문서에 레이블을 지정하는 것이 해당 레이블 아래에 색인된 문서의 클래스에 할당하는 것과 같다는 의미이다.

5. 자동 문서 분류 기법

자동 문서 분류에는 다양한 기계 학습 및 자연어 처리 기법이 사용된다. 이러한 기법에는 단순 베이즈 분류기가 있다.

5.1. 기계 학습 기법

* 나이브 베이즈 분류기
* tf-idf
* 잠재 의미 분석
* 서포트 벡터 머신
* 신경망
* K-최근접 이웃 알고리즘
* 결정 트리 (예: ID3)
* 개념 마이닝
* 기대값 최대화
* 즉시 훈련된 신경망
* 다중 인스턴스 학습
* 러프 집합 기반 분류기
* 소프트 집합 기반 분류기
* 자연어 처리 접근 방식

5.2. 자연어 처리 (NLP) 기반 기법

자연어 처리 기술을 활용하여 문서의 의미를 파악하고 분류한다.

6. 응용 분야

자동 문서 분류 기술은 스팸 필터링, 이메일 라우팅, 언어 식별, 장르 분류, 가독성 평가, 감성 분석, 공중 보건 감시, 생물학 분야 등 다양한 분야에 활용된다.

6.1. 스팸 메일 필터링

스팸 필터링은 합법적인 이메일과 이메일 스팸 메시지를 구별하는 과정으로, 스팸을 분류하여 사용자의 편의성을 높인다.

6.2. 이메일 라우팅

분류 기술은 스팸 필터링과 이메일 스팸 메시지를 구별하는 것 외에도, 일반 주소로 전송된 이메일을 주제에 따라 특정 주소 또는 사서함으로 전송하는 이메일 라우팅에도 사용된다.

6.3. 언어 식별

텍스트의 언어를 자동으로 판별한다.

6.4. 장르 분류

텍스트의 장르를 자동으로 결정하는 것은 다음과 같은 분야에 적용된다.

* 스팸 필터링: 합법적인 이메일과 이메일 스팸 메시지를 구별한다.
* 이메일 라우팅: 일반 주소로 전송된 이메일을 주제에 따라 특정 주소 또는 사서함으로 전송한다.
* 언어 식별: 텍스트의 언어를 자동으로 결정한다.
* 장르 분류: 텍스트의 장르를 자동으로 결정한다.
* 가독성 평가: 텍스트의 가독성 정도를 자동으로 결정하여, 서로 다른 연령대나 독자 유형에 적합한 자료를 찾거나 더 큰 텍스트 단순화 시스템의 일부로 활용한다.
* 감성 분석: 어떤 주제에 대한 화자 또는 작성자의 태도 또는 문서의 전체적인 맥락적 극성을 결정한다.
* 공중 보건 감시: 소셜 미디어를 활용한 건강 관련 분류를 한다.
* 문서 분류: 생물학에서 수동으로 큐레이션된 주석 데이터베이스를 생성하기 위한 첫 번째 단계로 수행되는 것처럼 수동 문헌 큐레이션에 관련된 문서를 선택한다.

6.5. 가독성 평가

텍스트의 가독성 정도를 자동으로 결정하여, 서로 다른 연령대나 독자 유형에 적합한 자료를 찾거나 더 큰 텍스트 단순화 시스템의 일부로 활용한다.

6.6. 감성 분석

감성 분석은 텍스트에 나타난 감정(긍정, 부정, 중립)을 자동으로 분석한다.

6.7. 공중 보건 감시

소셜 미디어 데이터를 분석하여 건강 관련 정보를 파악하고, 질병 확산 예측 등에 활용한다.

6.8. 생물학 분야

생물학에서 문서 분류는 수동 문헌 큐레이션과 관련된 문서를 선택하는 데 사용된다. 예를 들어, 생물학 논문에서 유용한 정보를 자동으로 추출하고 분류하여 수동으로 큐레이션된 주석 데이터베이스를 구축하는 데 활용할 수 있다.