단어 의미 중의성 해소

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

단어 의미 중의성 해소(WSD)는 1940년대 기계 번역 연구에서 시작된 문제로, 문맥에 따라 단어의 여러 의미를 구별하는 것을 목표로 한다. WSD는 사전 기반, 지식 기반, 말뭉치 기반 등 다양한 접근 방식을 통해 연구되어 왔으며, 1990년대 이후 통계적 자연어 처리 방법의 발전과 함께 지도 학습 기반 연구가 주류를 이루었다. 최근에는 준지도 학습, 비지도 학습, 그래프 기반 방법 등 다양한 시도가 이루어지고 있으며, 언어 모델 및 지식 증강 WSD 연구도 활발히 진행되고 있다. WSD는 기계 번역, 정보 검색, 질의응답 시스템 등 다양한 분야에 응용되며, 한국어의 특수성을 고려한 연구도 진행되고 있다. WSD 시스템의 객관적인 성능 평가는 어렵지만, SemEval과 같은 공개 평가 캠페인을 통해 다양한 시스템을 비교하고 평가하려는 노력이 이루어지고 있다.

단어 의미 중의성 해소

개요

설명	단어 의미 중의성 해소(word-sense disambiguation, WSD)는 자연어 처리에서 단어의 문맥에 맞는 의미를 식별하는 것을 뜻한다.
주요 과제	단어가 여러 의미를 가질 때, 해당 문맥에서 어떤 의미로 사용되었는지 정확히 파악하는 것
예시	"은행"이라는 단어가 "돈을 예금하는 금융 기관"을 의미하는지, "강가"를 의미하는지 구분하는 것

필요성

번역	기계 번역에서 단어의 정확한 의미를 파악해야 올바른 번역 가능
정보 검색	검색 결과의 정확도를 높이기 위해 검색어의 문맥적 의미를 파악해야 함
텍스트 이해	텍스트의 의미를 제대로 이해하기 위한 필수 요소

접근 방식

지식 기반 접근	단어의 의미와 문맥 정보를 담은 지식 베이스를 활용
지도 학습 접근	문맥과 의미가 레이블링된 데이터를 사용하여 기계 학습 모델을 학습
비지도 학습 접근	레이블링된 데이터 없이 단어의 문맥적 유사성을 기반으로 의미를 구분
하이브리드 접근	지식 기반과 기계 학습 기법을 결합

연구 분야

언어학	단어 의미 분석 및 구조 연구
컴퓨터 과학	자연어 처리 및 기계 학습 알고리즘 개발

도전 과제

단어의 의미 모호성	여러 의미를 가진 단어들이 문맥에 따라 다르게 해석
문맥 정보 부족	문맥이 충분하지 않을 때 정확한 의미 파악 어려움
데이터 부족	학습에 사용할 수 있는 충분한 양의 레이블링 데이터 부족

자연어 처리	텍스트 데이터를 분석하고 이해하는 기술
기계 학습	데이터에서 패턴을 학습하고 예측하는 알고리즘
딥 러닝	심층 신경망을 사용하여 복잡한 패턴을 학습
텍스트 마이닝	대량의 텍스트 데이터에서 유용한 정보를 추출

특징	한국어는 조사, 어미 변화 등으로 의미가 달라지므로, 더욱 복잡한 의미 중의성 해소 필요
기술	형태소 분석, 구문 분석 등 한국어 특성에 맞는 기술 활용
중요성	한국어 정보 검색, 기계 번역의 정확도를 높이는데 중요

정보	영어 위키백과
정보	일본어 위키백과

2. 역사

WSD는 1940년대 기계 번역 초기 단계에서 별개의 계산 과제로 처음 공식화되어 계산 언어학에서 가장 오래된 문제 중 하나가 되었다. 워렌 위버(Warren Weaver)는 1949년 번역에 관한 자신의 보고서에서 처음으로 계산적 맥락에서 이 문제를 제기했다. 이후, 예호슈아 바르-힐렐(Yehoshua Bar-Hillel)(1960)은 WSD가 모든 세계 지식을 모델링해야 할 필요성 때문에 "전자 컴퓨터"로 해결될 수 없다고 주장했다.

1970년대에는 WSD가 인공지능 분야에서 개발된 의미 해석 시스템의 하위 과제였으며, 요릭 윌크스(Yorick Wilks)의 선호 의미론이 대표적이었다. 그러나 당시 WSD 시스템은 대부분 규칙 기반이었고 수작업으로 코딩되었기 때문에 지식 획득 병목 현상이 발생하기 쉬웠다.

1980년대에는 옥스포드 고급 학습자 영어 사전(OALD)과 같은 대규모 어휘 자원을 사용할 수 있게 되었다. 수작업 코딩은 이러한 자원에서 자동으로 추출한 지식으로 대체되었지만, 의미 분석은 여전히 지식 기반 또는 사전 기반이었다.

1990년대에는 통계적 혁명이 계산 언어학을 발전시켰고, WSD는 지도 학습 기법을 적용하는 표준 문제가 되었다.

2000년대에는 지도 학습 기법의 정확도가 정체기에 도달했기 때문에, 더 조악한 의미, 도메인 적응(domain adaptation), 준지도 및 비지도 말뭉치 기반 시스템, 다양한 방법의 조합, 그래프 기반 방법을 통한 지식 기반 시스템의 복귀 등에 대한 관심이 증가했다. 그럼에도 불구하고 지도 학습 시스템이 여전히 최고의 성능을 보이고 있다.

3. 접근 방법

WSD(단어 의미 중의성 해소)는 크게 지식 기반 방법과 말뭉치 기반 방법으로 나눌 수 있다.

심층 접근 방식은 포괄적인 세계 지식에 접근할 수 있다는 것을 전제로 하지만, 실제로는 성공적이지 못한 것으로 간주된다. 그 이유는 매우 제한된 영역을 제외하고는 컴퓨터가 읽을 수 있는 형식의 그러한 지식 기반이 존재하지 않기 때문이다.

표층 접근 방식은 텍스트를 이해하려고 시도하지 않고 주변 단어를 고려한다. 이러한 규칙은 단어의 의미가 태깅된 단어 훈련 말뭉치를 사용하여 컴퓨터가 자동으로 도출할 수 있다. 이론적으로는 심층 접근 방식만큼 강력하지는 않지만, 컴퓨터의 세계 지식이 제한되어 있기 때문에 실제로는 더 나은 결과를 제공한다.

WSD에는 네 가지 일반적인 접근 방식이 있다.

* 사전 및 지식 기반 방법: 말뭉치 증거를 사용하지 않고 사전, 테소러스 및 어휘 지식 기반에 주로 의존한다.
* 준지도 또는 최소한으로 지도되는 방법: 부트스트래핑 과정에서 작은 주석이 달린 말뭉치와 같은 보조 지식 소스나 단어 정렬 이중 언어 말뭉치를 사용한다.
* 비지도 학습 방법: (거의) 완전히 외부 정보를 피하고 주석이 달리지 않은 원시 말뭉치에서 직접 작업한다. 단어 의미 구별이라고도 한다.
* 지도 학습 방법: 의미 주석이 달린 말뭉치를 사용하여 학습한다.

이 외에도 도메인 기반 동음이의어 해소, 주요 어휘 의미 식별, 교차 언어적 증거를 이용한 WSD, 존 볼의 언어 독립적 NLU(자연어 이해)에서 Patom 이론과 RRG(역할 및 참조 문법)을 결합한 WSD 솔루션, 제약 기반 문법의 형식 추론 등의 다른 접근 방식도 존재한다.

3.1. 지식 기반 방법

레스크 알고리즘은 대표적인 사전 기반 방법이다. 이 방법은 텍스트에서 함께 사용되는 단어들은 서로 관련이 있으며, 이러한 관계는 단어와 그 의미의 정의에서 관찰될 수 있다는 가설에 기반한다. 두 개 이상의 단어는 사전 정의에서 가장 많은 단어 중복을 가진 사전 의미 쌍을 찾아서 의미를 명확히 한다. 예를 들어, "소나무 솔방울"의 단어의 의미를 명확히 할 때, 적절한 의미의 정의에는 상록수와 나무라는 단어가 모두 포함된다(적어도 하나의 사전에서는).

WordNet과 같은 주어진 어휘 지식 기반에 따라 각 단어 의미 쌍의 의미적 유사성을 계산하고, 일반적인 단어 의미 관련성을 고려하는 방법도 쓰인다. 초기 AI 연구의 확산 활성화 연구를 연상시키는 그래프 기반 방법이 어느 정도 성공적으로 적용되었다. 더 복잡한 그래프 기반 접근 방식은 지도 학습 방식과 거의 동등한 성능을 보이기도 한다.

선택적 선호도(또는 선택적 제약)의 사용도 유용하다. 예를 들어, 일반적으로 음식을 요리한다는 것을 알고 있다면 "나는 베이스를 요리하고 있다"에서 베이스 단어의 의미를 명확히 할 수 있다(즉, 악기가 아님).

지식은 WSD(Word Sense Disambiguation, 단어 의미 분류)의 기본 구성 요소이다. 지식 원천은 단어에 의미를 연결하는 데 필수적인 데이터를 제공한다. 지식 원천의 종류는 다음과 같이 분류할 수 있다.

구조화된 지식 원천:

* 기계 판독 가능 사전(MRDs)
* 온톨로지
* 동의어 사전

비구조화된 지식 원천:

* 콜로케이션 자원
* 기타 자원 (단어 빈도 목록, 불용어 목록, 도메인 레이블 등)
* 코퍼스: 원시 코퍼스 및 의미 주석 코퍼스

3.2. 말뭉치 기반 방법

말뭉치 기반 방법은 대량의 텍스트 데이터(말뭉치)에서 추출한 통계 정보를 기반으로 단어의 의미를 결정한다. 이러한 접근 방식은 지도 학습, 준지도 학습, 비지도 학습 등 다양한 기계 학습 기법을 활용한다.

말뭉치 기반 방법은 텍스트를 이해하려는 시도를 하지 않고, 주변 단어들을 고려하여 분석한다. 이 방법은 단어의 의미가 태깅된 단어 훈련 말뭉치를 통해 자동으로 도출될 수 있다. 이론적으로는 심층 접근 방식만큼 강력하지 않지만, 컴퓨터의 세계 지식이 제한되어 있기 때문에 실제로는 더 나은 결과를 제공한다.

일반적으로, 말뭉치에서 동음이의어를 해소할 단어 주변의 n개의 내용 단어로 구성된 창을 정의하고, 해당 n개의 주변 단어를 통계적으로 분석하는 방식으로 작동한다. 훈련 후 동음이의어를 해소하는 데 사용되는 표층 접근 방식에는 나이브 베이즈 분류기, 결정 트리, 서포트 벡터 머신과 같은 커널 기반 방법, 그래프 기반 접근 방식 등이 있다.

말뭉치 기반 방법의 종류는 다음과 같다.

* 사전 및 지식 기반 방법: 말뭉치 증거를 사용하지 않고 사전, 시소러스 및 어휘 지식 기반에 주로 의존한다.
* 준지도 또는 최소한으로 지도되는 방법: 부트스트래핑 과정에서 작은 주석이 달린 말뭉치와 같은 보조 지식 소스나 단어 정렬 이중 언어 말뭉치를 사용한다.
* 비지도 학습 방법: (거의) 완전히 외부 정보를 피하고 주석이 달리지 않은 원시 말뭉치에서 직접 작업한다. 단어 의미 구별이라고도 한다.

3.2.1. 지도 학습

지도 학습 방법은 문맥 자체가 단어의 의미를 명확히 하는 데 충분한 증거를 제공한다는 가정에 기반한다. (따라서 상식과 추론은 불필요하다고 간주된다). 거의 모든 기계 학습 알고리즘이 WSD(Word Sense Disambiguation)에 적용되었으며, 특징 선택, 매개변수 최적화 및 앙상블 학습과 같은 관련 기술도 포함된다. 서포트 벡터 머신과 메모리 기반 학습이 현재까지 가장 성공적인 방법으로 입증되었는데, 이는 고차원 특징 공간을 처리할 수 있기 때문일 것이다. 그러나 이러한 지도 학습 방법은 훈련을 위해 상당한 양의 수동으로 의미 태깅된 말뭉치에 의존하기 때문에 새로운 지식 획득 병목 현상의 영향을 받는다. 수동으로 의미 태깅된 말뭉치를 만드는 것은 많은 노력과 비용이 소요된다.

3.2.2. 준지도 학습

훈련 데이터가 부족할 경우, 많은 어의 분석 알고리즘은 준지도 학습을 사용한다. 준지도 학습은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용하여 학습하는 방식이다. 야로스키 알고리즘은 이러한 알고리즘의 초기 예시이다. 이 알고리즘은 어의 분석을 위해 인간 언어의 '배열당 하나의 의미'와 '담화당 하나의 의미' 속성을 활용한다. 즉, 단어는 대부분의 주어진 담화와 주어진 배열에서 하나의 의미만을 나타내는 경향이 있다는 관찰 결과를 이용한다.

부트스트래핑 방식은 각 단어에 대해 소량의 시드 데이터(수동으로 태깅된 훈련 예시 또는 소수의 확실한 의사결정 규칙, 예를 들어 '베이스' 문맥에서의 'play'는 거의 항상 악기를 나타냄)부터 시작한다. 이 시드 데이터를 사용하여 초기 분류기를 훈련시킨다. (지도 학습 방법 사용) 그 후, 이 분류기를 코퍼스의 태깅되지 않은 부분에 적용하여 더 큰 훈련 세트를 추출한다. 이때, 가장 확실하게 분류된 데이터만 훈련 세트에 포함시킨다. 전체 코퍼스가 소모되거나 지정된 최대 반복 횟수에 도달할 때까지, 각 새로운 분류기가 점점 더 커지는 훈련 코퍼스에서 훈련되는 과정이 반복된다.

다른 준지도 기법들은 태깅된 코퍼스를 보완하는 동시 발생 정보를 제공하기 위해 대량의 태깅되지 않은 코퍼스를 사용하기도 한다. 이러한 기법들은 지도 모델을 다른 도메인에 적용하는 데 도움을 줄 수 있다.

또한, 한 언어에서 모호한 단어는 그 의미에 따라 다른 언어에서는 다른 단어로 번역되는 경우가 많다. 이러한 특성을 이용하여, 단어 정렬된 이중 언어 코퍼스는 준지도 시스템의 일종인 교차 언어 의미 구분을 유추하는 데 사용되기도 한다.

3.2.3. 비지도 학습

비지도 학습은 태깅되지 않은 말뭉치만을 사용하여 단어의 의미를 군집화하며, 단어 의미 유도(Word Sense Induction)라고도 불린다. 이러한 방법은 유사한 의미가 유사한 문맥에서 나타난다는 가정하에, 문맥의 유사성 척도를 사용하여 단어 출현 빈도를 군집화함으로써 텍스트에서 의미를 유도한다.

비지도 학습 시스템은 WordNet, ConceptNet, BabelNet과 같은 어휘 데이터베이스를 사전으로 활용하여 단어와 그 의미를 매핑할 수 있다. 어휘 데이터베이스와 단어 임베딩을 결합하는 기법으로는 AutoExtend와 MSSA(Most Suitable Sense Annotation) 등이 있다. AutoExtend는 단어(텍스트) 및 비단어(WordNet의 동의어 집합 등) 개체를 노드로, 노드 간의 관계를 에지로 매핑하는 그래프 구조를 사용하며, 노드 간의 추가 또는 유사성을 나타낸다. MSSA는 미리 훈련된 단어 임베딩 모델과 WordNet을 사용하여 가장 적합한 단어 의미를 선택한다. 각 문맥 창에 대해 MSSA는 WordNet의 용어 설명의 단어 벡터를 평균하여 각 단어 의미 정의의 중심을 계산하고, 이를 통해 대상 단어의 인접한 이웃과의 유사성이 가장 높은 단어 의미를 선택한다.

비지도 학습은 수동 작업에 의존하지 않기 때문에 지식 습득 병목 현상을 극복할 수 있을 것으로 기대된다.

3.3. 그래프 기반 방법

그래프 기반 방법은 단어 간의 의미 관계를 그래프 형태로 표현하고, 그래프 알고리즘을 사용하여 단어의 의미를 결정하는 방식이다. WordNet과 같은 어휘 지식 베이스를 활용하는 경우가 많다. 2000년대에 들어 지도 학습 기법의 정확도가 정체기에 도달하면서 그래프 기반 방법을 통한 지식 기반 시스템이 다시 주목받기 시작했다. 연구 커뮤니티에서 많은 관심을 받았으며, 현재 최첨단 성능에 근접한 성능을 달성하고 있다.

4. 어려움 및 과제

WSD(Word Sense Disambiguation)는 1940년대 기계 번역 초기 단계에서 처음 공식화된, 계산 언어학에서 가장 오래된 문제 중 하나이다. 워렌 위버(Warren Weaver)는 1949년 번역에 관한 보고서에서 이 문제를 계산적 맥락에서 처음 제기했다. 바르-힐렐은 모든 세계 지식을 모델링해야 할 필요성 때문에 WSD가 "전자 컴퓨터"로 해결될 수 없다고 주장했다.

1970년대에는 WSD가 인공지능 분야에서 개발된 의미 해석 시스템의 하위 과제였지만, 당시 WSD 시스템은 대부분 규칙 기반이었고 수작업으로 코딩되었기 때문에 지식 획득 병목 현상이 발생하기 쉬웠다. 1980년대에는 옥스포드 고급 학습자 영어 사전(OALD)과 같은 대규모 어휘 자원을 사용할 수 있게 되면서 수작업 코딩은 이러한 자원에서 자동으로 추출한 지식으로 대체되었지만, 의미 분석은 여전히 지식 기반 또는 사전 기반이었다.

1990년대에는 통계적 혁명이 계산 언어학을 발전시켰고, WSD는 지도 학습 기법을 적용하는 표준 문제가 되었다. 2000년대에는 지도 학습 기법의 정확도가 정체기에 도달했기 때문에, 더 조악한 의미, 도메인 적응(domain adaptation), 준지도 및 비지도 말뭉치 기반 시스템, 다양한 방법의 조합, 그래프 기반 방법을 통한 지식 기반 시스템의 복귀 등에 대한 관심이 증가했다. 그럼에도 불구하고 지도 학습 시스템이 여전히 최고의 성능을 보이고 있다.

WSD에는 크게 심층 접근 방식과 표층 접근 방식 두 가지가 있다. 심층 접근 방식은 포괄적인 세계 지식에 접근할 수 있다는 것을 전제로 하지만, 실제로는 매우 제한된 영역을 제외하고는 컴퓨터가 읽을 수 있는 형식의 그러한 지식 기반이 존재하지 않기 때문에 그다지 성공적이지 않다. 표층 접근 방식은 텍스트를 이해하려고 시도하지 않고 주변 단어를 고려하며, 이론적으로 심층 접근 방식만큼 강력하지는 않지만, 실제로는 더 나은 결과를 제공한다.

WSD에는 네 가지 일반적인 접근 방식이 있다:

* 사전 및 지식 기반 방법: 말뭉치 증거를 사용하지 않고 사전, 테소러스 및 어휘 지식 기반에 주로 의존한다. 레스크 알고리즘은 대표적인 사전 기반 방법이다.
* 준지도 또는 최소한으로 지도되는 방법: 부트스트래핑 과정에서 작은 주석이 달린 말뭉치와 같은 보조 지식 소스나 단어 정렬 이중 언어 말뭉치를 사용한다.
* 지도 학습 방법: 의미 주석이 달린 말뭉치를 사용하여 학습한다. 최근 연구에서는 지도 학습에서 서포트 벡터 머신과 같은 커널 기반 방법이 우수한 성능을 보였다.
* 비지도 학습 방법: (거의) 완전히 외부 정보를 피하고 주석이 달리지 않은 원시 말뭉치에서 직접 작업한다. 이러한 방법은 단어 의미 구별이라는 이름으로도 알려져 있다.

그래프 기반 접근 방식도 연구 커뮤니티의 많은 관심을 받았으며, 현재 최첨단 성능에 근접한 성능을 달성하고 있다.

선택적 선호도(또는 선택적 제약)의 사용도 유용하다. 예를 들어, 일반적으로 음식을 요리한다는 것을 알고 있다면 "나는 베이스를 요리하고 있다"에서 베이스 단어의 의미를 명확히 할 수 있다(즉, 악기가 아님). 다른 접근 방식으로는 도메인 기반 동음이의어 해소, 주요 어휘 의미 식별, 교차 언어적 증거를 이용한 WSD, 존 볼의 언어 독립적 NLU(자연어 이해)에서 Patom 이론과 RRG(역할 및 참조 문법)을 결합한 WSD 솔루션, 제약 기반 문법의 형식 추론 등이 있다.

작업에 독립적인 의미 목록은 일관된 개념이 아니며, 각 작업에는 작업과 관련된 의미로 단어 의미를 나누는 자체적인 방법이 필요하다. 또한, 서로 다른 응용 프로그램에는 완전히 다른 알고리즘이 필요할 수 있다. 기계 번역에서 이 문제는 목표 단어 선택의 형태를 취한다. 정보 검색에서 의미 목록은 반드시 필요하지 않다. 쿼리와 검색된 문서에서 단어가 같은 의미로 사용된다는 것을 알면 충분하기 때문이다. 어떤 의미인지는 중요하지 않다.

4.1. 의미의 모호성

단어의 의미는 문맥에 따라 미묘하게 달라질 수 있으며, 명확하게 구분하기 어려운 경우가 많다. 다의어뿐만 아니라 동음이의어도 WSD(Word Sense Disambiguation, 단어 의미 중의성 해소)의 정확도를 저해하는 요인이다. 특히 한국어는 동음이의어가 많아 WSD가 더욱 어렵다.

인간의 성능은 과립화된 구분보다 세분화된 구분에서 훨씬 더 좋기 때문에, 최근 WSD 평가 연습에서 과립화된 구분에 대한 연구가 이루어졌다.

의미라는 개념 자체는 모호하고 논란의 여지가 있다. 대부분의 사람들은 거친 입자 수준의 동음이의어(예: 필기구 또는 울타리로서의 pen)에서 차이점에 동의하지만, 미세 입자 수준의 다의어로 내려가면 의견이 갈린다. 예를 들어, 미세한 의미 구분을 사용한 Senseval-2에서 인간 주석자들은 단어 발생의 85%에서만 일치했다. 단어의 의미는 원칙적으로 무한히 다양하고 문맥에 따라 달라지며, 명확하거나 별개의 하위 의미로 쉽게 나뉘지 않는다.

4.2. 지식 자원의 부족

WSD(단어 의미 중의성 해소)는 많은 양의 지식 자원을 필요로 하지만, 한국어는 영어에 비해 이러한 자원이 부족한 실정이다. 특히, 신조어나 전문 용어에 대한 정보는 더욱 부족하다. 이러한 현상을 지식 획득의 병목 현상이라고 부르기도 한다.

WSD 연구에서 가장 유망한 동향 중 하나는 가장 큰 말뭉치인 월드 와이드 웹을 사용하여 어휘 정보를 자동으로 획득하는 것이다. WSD는 전통적으로 정보 검색(IR)과 같은 응용 프로그램을 개선할 수 있는 중간 언어 엔지니어링 기술로 이해되어 왔으나, 최근에는 웹 검색 엔진의 IR 기술을 활용하여 WSD에 필요한 정보를 웹에서 추출하는 연구도 진행되고 있다. 훈련 데이터 부족 문제는 자동 감각 태깅 말뭉치 획득 기술 등의 발전으로 해결될 가능성이 있다.

4.3. 평가의 어려움

WSD 시스템의 성능을 객관적으로 평가하기는 어렵다. 평가 데이터 구축, 평가 지표 등 다양한 측면에서 어려움이 존재한다.

* 의미 결정의 어려움: 다양한 사전마다 단어를 의미로 나누는 방식이 다르다. 연구자들은 특정 사전을 선택하거나 의미의 폭넓은 구분을 사용하지만, 일반적으로 세분화된 WSD에 대한 연구가 진행 중이다.
* 의미 목록의 비일관성: 작업에 독립적인 의미 목록은 일관된 개념이 아니며, 각 작업마다 단어 의미를 나누는 자체적인 방법이 필요하다.
* "의미" 개념의 모호성: 대부분의 사람들은 거친 입자 수준의 동음이의어에는 동의하지만, 미세 입자 수준의 다의어에서는 의견이 갈린다. 단어의 의미는 문맥에 따라 다양하고, 명확하게 나누기 어렵다.
* 지식 획득의 병목 현상: WSD는 어휘 의미에 대한 지식에 의존하는데, 이는 사전과 어휘 데이터베이스에 부분적으로만 제시되어 있다. 지도 학습 방법은 수동으로 주석이 달린 예제가 필요하지만, 이는 소수의 단어에 대해서만 충족될 수 있다.

4.4. 한국어의 특수성

한국어는 교착어로서, 어미, 조사 등에 의해 단어의 의미가 달라지는 경우가 많아 WSD가 더욱 어렵다. 띄어쓰기 오류, 오탈자 등도 WSD의 성능을 저해하는 요인이며, 주어 생략 등의 특징도 WSD를 어렵게 만든다. [http://www.cfilt.iitb.ac.in/wordnet/webhwn/ 힌디어 워드넷(Hindi WordNet)]의 생성은 여러 감독 학습 방식의 발전에 기여했으며, 이러한 방식들은 명사의 의미를 명확히 하는 데 더 높은 정확도를 보이는 것으로 입증되었다.

5. 응용 분야

WSD는 다양한 자연어 처리 응용 분야에서 핵심적인 기술로 활용된다. 기술이 발전함에 따라, 다의어 의미 분석(WSD) 과제는 다양한 연구 방향과 더 많은 언어로 다양하게 발전하고 있다.

5.1. 정보 검색

레스크 알고리즘은 텍스트에 함께 사용되는 단어들이 서로 관련되며, 이 관계는 단어와 그 의미의 정의에서 찾을 수 있다는 가설에 기반한 사전 기반 방법이다. 두 개 이상의 단어는 사전 정의에서 가장 많은 단어 중복을 가진 사전 의미 쌍을 찾아 의미를 명확히 한다. 예를 들어, "소나무 솔방울"의 의미를 명확히 할 때, 적절한 의미 정의에는 상록수와 나무라는 단어가 모두 포함된다.

일반적인 단어 의미 관련성을 고려하고 WordNet과 같은 어휘 지식 기반에 따라 각 단어 의미 쌍의 의미적 유사성을 계산하는 방법도 있다. 초기 AI 연구의 확산 활성화 연구와 비슷한 그래프 기반 방법이 어느 정도 성공을 거두었으며, 특정 영역에서는 지도 학습 방식보다 더 나은 성능을 보이기도 한다.

선택적 선호도(또는 선택적 제약)를 사용하는 것도 유용하다. 예를 들어, "나는 베이스를 요리하고 있다"에서 베이스 단어의 의미는 (악기가 아닌) 음식을 요리한다는 일반적인 지식을 통해 명확히 할 수 있다.

지식은 단어 의미 분류(WSD)의 기본 요소이며, 단어에 의미를 연결하는 데 필수적인 데이터를 제공한다. 지식 원천은 다음과 같이 분류할 수 있다.

👆

좌우로 밀어서 보기

구분	내용
구조화된 지식 원천	기계 판독 가능 사전, 온톨로지, 동의어 사전
비구조화된 지식 원천	콜로케이션 자원, 기타 자원 (단어 빈도 목록, 불용어 목록, 도메인 레이블 등), 코퍼스(원시 코퍼스 및 의미 주석 코퍼스)

5.2. 텍스트 마이닝

기술이 발전함에 따라, 다의어 의미 분석(WSD) 과제는 다양한 연구 방향과 더 많은 언어로 다양하게 발전하고 있다. 텍스트 마이닝은 텍스트 데이터에서 유용한 정보를 추출하는 데 활용될 수 있다.

6. 최근 연구 동향

최근에는 딥 러닝 기반의 자연어 처리 기술 발전과 함께 WSD 연구도 새로운 전기를 맞이하고 있다.

* BabelFy(Babelfy): 다국어 의미 분석 및 개체 연결을 위한 최첨단 통합 시스템이다.
* BabelNet API(BabelNet API): BabelNet 의미 네트워크를 사용하여 6개 언어로 지식 기반 다국어 의미 분석을 수행하는 Java API이다.
* WordNet::SenseRelate: 의미 분석 및 어휘 표본 의미 분석을 위한 무료 오픈소스 시스템을 포함하는 프로젝트이다.
* UKB: Graph Base WSD: 기존 어휘 지식 기반을 사용하여 그래프 기반 의미 분석 및 어휘 유사성/관련성을 수행하는 프로그램 모음이다.
* pyWSD: 의미 분석(WSD) 기술의 파이썬 구현이다.

6.1. 한국어 WSD 연구

한국어의 특성을 고려한 WSD 연구도 활발히 진행되고 있다. 한국어 언어 모델 개발, 한국어 WSD 데이터 구축 등 다양한 노력이 이루어지고 있다. 특히, 법률, 의료 등 특정 분야에 특화된 WSD 연구도 진행되고 있다.

7. 평가

다양한 WSD 시스템을 비교하고 평가하는 것은 채택된 테스트 집합, 의미 목록 및 지식 자원이 다르기 때문에 매우 어렵다. 특정 평가 캠페인이 조직되기 전에는 대부분의 시스템이 사내에서, 종종 소규모의 데이터 집합을 통해 평가되었다. 개발자는 자신의 알고리즘을 테스트하기 위해 모든 단어 출현에 주석을 달아야 했다. 또한, 다른 의미 목록이 있는 경우 동일한 말뭉치에서 방법을 비교하는 것은 적절하지 않다.

이러한 문제를 해결하기 위해 공통 평가 데이터 집합과 절차를 정의하는 공개 평가 캠페인이 조직되었다.

7.1. Senseval/SemEval

Senseval(현재 SemEval로 이름이 변경됨)은 1998년부터 3년마다 개최되는 국제적인 단어 의미 중의성 해소(WSD) 경연 대회이다. [http://www.itri.brighton.ac.uk/events/senseval/ARCHIVE/index.html Senseval-1](1998), [https://web.archive.org/web/20100705121033/http://193.133.140.102/senseval2/ Senseval-2](2001), [https://web.archive.org/web/20031211003557/http://www.senseval.org/senseval3 Senseval-3](2004), [https://web.archive.org/web/20100611071609/http://nlp.cs.swarthmore.edu/semeval/ SemEval](2007) 등이 개최되었다. 이 경연 대회의 목표는 다양한 강의를 조직하고, 시스템 테스트를 위한 말뭉치를 준비하고 수동으로 주석을 달며, 여러 종류의 작업에서 WSD 시스템을 비교 평가하는 것이다. 평가 작업에는 다양한 언어에 대한 모든 단어 및 어휘 샘플 WSD를 포함하며, 최근에는 의미 역할 표시, 용어 해설 WSD, 어휘 대체 등과 같은 새로운 작업도 포함된다. 경연 대회에 제출된 시스템은 일반적으로 다양한 기술을 통합하고, 훈련 예제가 부족하여 성능이 저하되는 것을 방지하기 위해 감독 학습 방식과 지식 기반 방식을 결합하기도 한다.

7.2. 기타 평가 작업

* 고전적 일어 분석 WSD 평가 과제는 프린스턴 워드넷을 의미 목록으로 사용하며, 주로 수동으로 의미 주석이 달린 말뭉치를 이용한 지도 학습/준지도 학습 분류에 기반한다.
* 고전적인 영어 WSD는 프린스턴 워드넷을 의미 목록으로 사용하며, 주요 분류 입력은 일반적으로 SemCor 말뭉치에 기반한다.
* 다른 언어의 고전적인 WSD는 각각의 워드넷을 의미 목록으로 사용하고, 해당 언어로 태그가 지정된 의미 주석 말뭉치를 사용한다. 연구자들은 종종 SemCor 말뭉치와 영어를 원어로 하는 병렬 텍스트를 활용하기도 한다.
* 교차 언어 WSD 평가 과제는 둘 이상의 언어에서 동시에 WSD에 초점을 맞춘다. 다국어 WSD 과제와 달리, 다의어 명사의 각 의미에 대해 수동으로 의미 주석이 달린 예를 제공하는 대신, 의미 목록은 Europarl 말뭉치와 같은 병렬 말뭉치를 기반으로 구축된다.
* 다국어 WSD 평가 과제는 각각의 워드넷을 의미 목록으로 사용하거나 베이벨넷을 다국어 의미 목록으로 사용하여 둘 이상의 언어에서 동시에 WSD에 초점을 맞춘다. 이는 Senseval-2에서 수행된 번역 WSD 평가 과제에서 발전했다. 일반적인 접근 방식은 일어 분석 WSD를 수행한 다음 원어 의미를 해당 목표어 번역으로 매핑하는 것이다.
* 의미 유도 및 분석 과제는 의미 목록이 먼저 다의어와 그 단어가 나타나는 문장으로 구성된 고정된 훈련 세트 데이터에서 유도된 다음, WSD가 다른 테스트 데이터 세트에서 수행되는 결합된 과제 평가이다.

8. 관련 도구

* BabelFy(Babelfy): 다국어 의미 분석 및 개체 연결을 위한 최첨단 통합 시스템이다.
* BabelNet API(BabelNet API): BabelNet 의미 네트워크를 사용하여 6개 언어로 지식 기반 다국어 의미 분석을 수행하는 Java API이다.
* WordNet::SenseRelate: 의미 분석 및 어휘 표본 의미 분석을 위한 무료 오픈소스 시스템을 포함하는 프로젝트이다.
* UKB: Graph Base WSD: 기존 어휘 지식 기반을 사용하여 그래프 기반 의미 분석 및 어휘 유사성/관련성을 수행하는 프로그램 모음이다.
* pyWSD: 의미 분석(WSD) 기술의 파이썬 구현이다.