맨위로가기

표제어 추출

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

표제어 추출은 단어의 굴절 형태를 분석하여 사전에서 찾아볼 수 있는 기본 형태인 표제어를 찾는 과정이다. 어간 추출과 유사하지만, 문맥을 고려하여 품사에 따라 다른 의미를 가진 단어를 구별할 수 있다. 표제어 추출은 사전 조회를 통해 이루어지며, 규칙 기반 시스템이나 자동 학습을 통해 구현될 수 있다. 생명 의학 분야에서 텍스트의 형태학적 분석에 활용되며, 정보 검색 시스템의 재현율을 향상시킬 수 있다.

2. 설명

많은 언어에서 단어는 여러 ''굴절'' 형태로 나타난다. 예를 들어, 영어에서 'to walk' 동사는 'walk', 'walked', 'walks', 'walking'으로 나타날 수 있다. 사전에서 찾아볼 수 있는 기본 형태인 'walk'는 단어의 ''표제어''라고 불린다. 기본 형태와 품사의 연관성은 종종 단어의 ''어휘소''라고 불린다.

표제어 추출은 어간 추출과 밀접한 관련이 있다. 차이점은 어간 추출기는 문맥에 대한 지식 ''없이'' 단일 단어에 대해 작동하므로 품사에 따라 다른 의미를 가진 단어를 구별할 수 없다는 것이다. 그러나 어간 추출기는 일반적으로 구현하기 쉽고 더 빠르게 실행된다. 감소된 "정확도"는 일부 애플리케이션에서는 중요하지 않을 수 있다. 실제로, 정보 검색 시스템 내에서 사용될 때, 어간 추출은 표제어 추출에 비해 쿼리 재현율 정확도 또는 참 양성률을 향상시킨다.[5] 그럼에도 불구하고, 어간 추출은 그러한 시스템의 정밀도 또는 실제로 양성으로 레이블된 인스턴스의 비율을 감소시킨다.[5]

예를 들어:


  • 단어 "better"는 "good"을 표제어로 갖는다. 이 연결은 사전 조회가 필요하기 때문에 어간 추출에 의해 놓친다.
  • 단어 "walk"는 "walking"의 기본 형태이므로 어간 추출과 표제어 추출 모두에서 일치한다.
  • 단어 "meeting"은 문맥에 따라 명사의 기본 형태이거나 동사("to meet")의 형태일 수 있다. 예를 들어, "in our last meeting" 또는 "We are meeting again tomorrow"와 같다. 어간 추출과 달리, 표제어 추출은 문맥에 따라 올바른 표제어를 선택하려고 시도한다.


아파치 루씬(Apache Lucene)[6]과 같은 문서 인덱싱 소프트웨어는 의미에 대한 지식 없이 단어 형성 문법 규칙만 고려하여 단어의 기본 어간 형태를 저장할 수 있다. 어간 추출된 단어 자체는 유효한 단어가 아닐 수 있다. 'lazy'는 많은 어간 추출기에 의해 'lazi'로 어간 추출된다. 이것은 어간 추출의 목적이 적절한 표제어를 생성하는 것이 아니기 때문이다. 즉, 문맥에 대한 지식이 필요한 더 어려운 작업이다. 어간 추출의 주요 목적은 단어의 다른 형태를 단일 형태로 매핑하는 것이다.[7] 단어의 철자에만 의존하는 규칙 기반 알고리즘이므로, 예를 들어 'laziness'가 'lazi'로 어간 추출될 때 'lazy'와 동일한 어간을 갖도록 하기 위해 정확성을 희생한다.

3. 알고리즘

표제어 추출을 하는 간단한 방법은 사전 조회를 이용하는 것이다. 이는 간단한 활용형에는 잘 작동하지만, 긴 합성어를 사용하는 언어의 경우에는 규칙 기반 시스템이 필요하다. 이러한 규칙은 직접 작성하거나 주석이 달린 말뭉치에서 자동으로 학습할 수 있다.

많은 언어에서 단어는 여러 굴절 형태로 나타난다. 예를 들어, 영어에서 'to walk' 동사는 'walk', 'walked', 'walks', 'walking'으로 나타날 수 있다. 사전에서 찾아볼 수 있는 기본 형태인 'walk'는 단어의 표제어라고 하며, 기본 형태와 품사의 연관성은 단어의 어휘소라고 한다.

표제어 추출은 어간 추출과 밀접한 관련이 있다. 어간 추출기는 문맥에 대한 지식 없이 단일 단어에 대해 작동하므로 품사에 따라 다른 의미를 가진 단어를 구별할 수 없다는 차이점이 있다. 그러나 어간 추출기는 구현이 쉽고 실행 속도가 빠르다. 정확도가 낮아지는 것은 일부 응용 프로그램에서는 중요하지 않을 수 있다. 정보 검색 시스템 내에서 사용될 때, 어간 추출은 표제어 추출에 비해 쿼리 재현율 정확도(참 양성률)를 향상시킨다.[5] 반면 어간 추출은 시스템의 정밀도(실제로 양성으로 레이블된 인스턴스의 비율)를 감소시킨다.[5]

예를 들면 다음과 같다.


  • "better"는 "good"을 표제어로 갖는다. 이 연결은 사전 조회가 필요하기 때문에 어간 추출에서는 놓치게 된다.
  • "walk"는 "walking"의 기본 형태이므로 어간 추출과 표제어 추출 모두에서 일치한다.
  • "meeting"은 문맥에 따라 명사 또는 동사("to meet")의 형태일 수 있다. ("in our last meeting" 또는 "We are meeting again tomorrow"와 같이) 어간 추출과 달리, 표제어 추출은 문맥에 따라 올바른 표제어를 선택하려고 시도한다.


아파치 루씬(Apache Lucene)[6]과 같은 문서 인덱싱 소프트웨어는 의미에 대한 지식 없이 단어 형성 문법 규칙만 고려하여 단어의 기본 어간 형태를 저장할 수 있다. 어간 추출된 단어 자체는 유효한 단어가 아닐 수 있다. 'lazy'는 많은 어간 추출기에 의해 'lazi'로 어간 추출되는데, 이는 어간 추출의 목적이 적절한 표제어를 생성하는 것이 아니라 단어의 다른 형태를 단일 형태로 매핑하는 것이기 때문이다.[7] 이는 단어의 철자에만 의존하는 규칙 기반 알고리즘이므로, 'laziness'가 'lazi'로 어간 추출될 때 'lazy'와 동일한 어간을 갖도록 하기 위해 정확성을 희생한다.

3. 1. 한국어 표제어 추출의 특수성

한국어 표제어 추출에서 간단한 사전 조회 방식은 기본적인 활용형에는 효과적이지만, 긴 합성어를 사용하는 경우에는 규칙 기반 시스템이 필요하다. 이러한 규칙은 직접 작성하거나 주석이 달린 말뭉치에서 자동으로 학습할 수 있다.

4. 생명 의학 분야에서의 활용

생명 의학 관련 출판물의 형태학적 분석은 유용한 결과를 도출할 수 있다. 생명 의학 텍스트의 형태학적 처리는 생명 의학 전문 표제어 추출 프로그램을 통해 더욱 효과적일 수 있으며, 실질적인 정보 추출 작업의 정확도를 향상시킬 수 있다.[8]

참조

[1] 서적 Collins English Dictionary
[2] 웹사이트 WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages https://scholar.arch[...]
[3] 간행물 Joint Lemmatization and Morphological Tagging with LEMMING http://www.cis.lmu.d[...] Association for Computational Linguistics 2015
[4] 웹사이트 Context Sensitive Neural Lemmatization with Lematus http://homepages.inf[...]
[5] 웹사이트 Introduction to Information Retrieval http://nlp.stanford.[...] Cambridge University Press
[6] 웹사이트 Lucene Snowball http://lucene.apache[...] Apache project
[7] 웹사이트 Porter Stemmer http://tartarus.org/[...]
[8] 학술저널 BioLemmatizer: A lemmatization tool for morphological processing of biomedical text
[9] 서적 Collins English Dictionary
[10] 웹인용 WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages https://scholar.arch[...]
[11] 콘퍼런스 Joint Lemmatization and Morphological Tagging with LEMMING http://www.cis.lmu.d[...] Association for Computational Linguistics 2015
[12] 웹인용 Context Sensitive Neural Lemmatization with Lematus http://homepages.inf[...] 2024-04-15



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com