정보 추출
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
정보 추출은 텍스트에서 구조화된 정보를 자동으로 추출하는 기술로, 1970년대 후반 자연어 처리(NLP)의 초기 단계부터 연구가 시작되었다. 1980년대에는 금융 뉴스 제공을 위한 시스템이 개발되었으며, 1987년부터 개최된 메시지 이해 컨퍼런스(MUC)를 통해 기술 발전을 이루었다. 현재는 비구조화된 데이터 증가에 따라 중요성이 커지고 있으며, 템플릿 채우기, 지식 베이스 채우기, 개체명 인식, 관계 추출 등 다양한 하위 작업을 포함한다. 정보 추출에는 규칙 기반, 기계 학습 기반 접근 방식이 사용되며, 최근에는 딥러닝 기반 모델의 활용이 두드러진다. 또한, 텍스트 엔지니어링을 위한 GATE, 아파치 오픈NLP, spaCy 등 다양한 오픈 소스 소프트웨어 및 서비스가 존재한다.
더 읽어볼만한 페이지
- 자연어 처리 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다. - 자연어 처리 - 정보 검색
정보 검색은 컴퓨터를 사용하여 정보를 찾는 기술과 관련된 분야로, 데이터 집합, 색인, 랭킹 등의 요소로 구성되며, 다양한 모델과 평가 지표를 통해 검색 성능을 측정하고, 디지털 도서관, 검색 엔진 등 광범위한 분야에 응용된다.
정보 추출 | |
---|---|
지도 정보 | |
기본 정보 | |
정의 | 텍스트로부터 구조화된 정보를 추출하는 기술 |
관련 분야 | 자연어 처리 기계 학습 |
유형 | 개체명 인식 관계 추출 사건 추출 감성 분석 |
정보 추출 접근 방법 | |
규칙 기반 접근 방식 | 언어 규칙과 패턴을 기반으로 정보 추출 |
기계 학습 기반 접근 방식 | 훈련 데이터를 사용하여 모델 학습 후 정보 추출 |
정보 추출의 활용 | |
분야 | 비즈니스 인텔리전스 의료 정보 소셜 미디어 분석 지식 그래프 구축 |
정보 추출의 과제 | |
어려움 | 모호성 문맥 의존성 다양한 형식 |
평가 지표 | |
성능 평가 | 정밀도 재현율 F1 점수 |
추가 정보 | |
정보 추출 발전 | 기계 학습의 발전으로 정교한 정보 추출 가능 |
미래 전망 | 딥 러닝을 이용한 더욱 향상된 성능 기대 |
2. 역사
정보 추출은 자연어 처리(NLP) 초기인 1970년대 후반부터 시작되었다.[4] 1980년대 중반 카네기 그룹의 JASPER 개발과 1987년부터 시작된 메시지 이해 컨퍼런스(MUC)는 정보 추출 기술 발전에 기여했다. 미국 국방고등연구계획국(DARPA)은 정부 분석가들의 단순 작업 자동화를 위해 정보 추출 연구를 지원했다.
2. 1. 초기 상용 시스템 (1980년대)
1980년대 중반, 카네기 그룹(Carnegie Group Inc)은 로이터(Reuters)를 위해 금융 거래자들에게 실시간 금융 뉴스를 제공하는 JASPER와 같은 초기 상용 시스템을 개발했다.[5]2. 2. 메시지 이해 컨퍼런스 (MUC) (1987년 ~ 1998년)
1987년부터 일련의 메시지 이해 컨퍼런스(Message Understanding Conference, MUC)가 정보 추출 기술 발전을 촉진했다. MUC는 경쟁 기반 컨퍼런스[6]로, 다음과 같은 분야에 초점을 맞추었다.컨퍼런스 | 분야 |
---|---|
MUC-1 (1987), MUC-2 (1989) | 해군 작전 메시지 |
MUC-3 (1991), MUC-4 (1992) | 중남미 국가의 테러리즘 |
MUC-5 (1993) | 합작 투자 및 마이크로 전자 분야 |
MUC-6 (1995) | 경영 변화 관련 뉴스 기사 |
MUC-7 (1998) | 위성 발사 보고서 |
현재 정보 추출의 중요성은 구조화되지 않은 형태로 이용 가능한 정보의 양이 증가하고 있다는 점과 관련이 있다. 월드 와이드 웹의 발명가인 팀 버너스-리는 기존의 인터넷을 '문서의 웹'[7]이라고 언급하며 더 많은 콘텐츠를 데이터의 웹으로 제공해야 한다고 주장한다.[8] 이것이 실현될 때까지 웹은 대부분 의미 메타데이터가 부족한 비구조화된 문서로 구성된다. 이러한 문서에 포함된 지식은 관계형 형태로 변환하거나 XML 태그로 마크업하여 기계 처리를 위해 더욱 접근 가능하게 만들 수 있다. 뉴스 데이터 피드를 모니터링하는 지능형 에이전트는 정보 추출을 통해 비구조화된 데이터를 추론할 수 있는 형태로 변환해야 한다. 정보 추출의 일반적인 응용 프로그램은 자연어로 작성된 문서 집합을 스캔하고 추출된 정보로 데이터베이스를 채우는 것이다.[9]
정보 추출은 텍스트에서 정보를 추출하여 구조화된 형태로 만드는 작업으로, 텍스트 단순화 문제와 관련이 있다. 즉, 기계가 텍스트를 더 쉽게 읽을 수 있도록 돕는 것이다.
미국 국방고등연구계획국(DARPA)은 테러 관련 정보 분석 자동화 등 정부 분석가들의 단순 작업 자동화를 위해 정보 추출 연구를 지원했다.
3. 현재의 중요성
4. 주요 작업 및 하위 작업
정보 추출의 주요 작업 및 하위 작업은 다음과 같다.
위 목록은 정보 추출 작업의 일부이며, 정보 추출의 정확한 범위는 아직 명확하게 정의되지 않았다. 많은 경우, 더 큰 목표를 달성하기 위해 여러 하위 작업이 결합되기도 한다. 정보 추출에는 기계 학습, 통계 분석, 자연어 처리 등의 기술이 활용된다.
최근에는 텍스트뿐만 아니라 멀티미디어 문서에서도 정보를 추출하는 연구가 활발히 진행되고 있으며, 다양한 종류의 문서에서 추출된 정보를 통합하는 연구도 이루어지고 있다.
4. 1. 템플릿 채우기
문서에서 고정된 필드 집합(예: 가해자, 피해자, 시간)을 추출하는 것이다. 예를 들어, 테러 공격에 대한 신문 기사에서 가해자, 피해자, 시간 등을 추출하는 것이 이에 해당한다.[10]
4. 2. 이벤트 추출
입력 문서를 기반으로 이벤트 템플릿을 출력한다. 예를 들어, 신문 기사에서 여러 테러 공격을 설명하는 경우가 이에 해당한다.[10]
4. 3. 지식 베이스 채우기
문서 집합을 기반으로 주어진 사실의 데이터베이스를 채운다. 일반적으로 데이터베이스는 (개체 1, 관계, 개체 2) 형태의 세 쌍으로 구성된다. 예를 들면 다음과 같다.
4. 4. 개체명 인식 (Named Entity Recognition, NER)
개체명 인식은 사람, 조직, 장소, 시간 표현 및 특정 유형의 숫자 표현을 인식하기 위해 기존의 도메인 지식이나 다른 문장에서 추출한 정보를 사용한다.[10] 일반적으로 인식 작업에는 추출된 개체에 고유 식별자를 할당하는 것이 포함된다. 더 간단한 작업은 ''개체명 탐지''인데, 이는 기존의 개체 인스턴스에 대한 지식 없이 개체를 탐지하는 것을 목표로 한다. 예를 들어, "M. Smith는 낚시를 좋아합니다."라는 문장을 처리할 때, ''개체명 탐지''는 "M. Smith"라는 구절이 사람을 가리킨다는 것을 '''탐지'''하지만, 해당 문장에서 언급된 특정 ''M. Smith''에 대한 지식을 가지고 있거나 사용하지 않을 수 있다.
4. 5. 공참조 해결 (Coreference Resolution)
텍스트에서 공참조 및 담화 지시어 링크를 탐지한다. 정보 추출 작업에서 이는 일반적으로 이전에 추출된 개체명 간의 링크를 찾는 것으로 제한된다. 예를 들어, "International Business Machines"와 "IBM"은 동일한 실제 세계 개체를 가리킨다.[10] "M. Smith는 낚시를 좋아합니다. 그러나 그는 자전거 타는 것을 좋아하지 않습니다."라는 두 문장을 고려하면, "he"가 이전에 탐지된 사람 "M. Smith"를 가리키는 것을 탐지하는 것이 유익할 것이다.
4. 6. 관계 추출 (Relation Extraction)
관계 추출은 개체 간의 관계를 식별하는 것을 말한다.[10] 예를 들면 다음과 같다.4. 7. 반구조화 정보 추출
반구조화 정보 추출은 게시를 통해 손실된 일종의 정보 구조를 복원하려고 시도하는 모든 정보 추출을 의미할 수 있다. 그 예시는 다음과 같다.4. 8. 언어 및 어휘 분석
용어 추출은 주어진 말뭉치에서 관련 용어를 찾는 것을 말한다.[10]
4. 9. 오디오 추출
템플릿 기반 음악 추출은 주어진 레퍼토리에서 가져온 오디오 신호에서 관련 특성(예: 타악기 소리 발생 시간[15])을 찾는 것이다. 이를 통해 음악 작품의 필수 리듬 구성 요소를 나타낼 수 있다.
5. 월드 와이드 웹(WWW) 응용
웹의 확산으로 인해 온라인에서 이용 가능한 방대한 양의 데이터를 처리하기 위한 정보 추출 시스템 개발의 필요성이 증가했다. 온라인 텍스트 정보 추출 시스템은 저렴한 비용, 개발 유연성, 새로운 도메인 적응 용이성 등의 요구 사항을 충족해야 한다.[9]
- 래퍼(Wrapper): 웹 정보 추출을 위한 언어적으로 덜 집약적인 접근 방식으로, 특정 페이지의 콘텐츠를 추출하는 규칙 집합이다. 래퍼는 수동으로 개발할 경우 시간과 전문성이 필요하지만, 기계 학습(지도 학습 또는 비지도 학습)을 통해 자동으로 규칙을 생성할 수 있다.
- 적응형 정보 추출(Adaptive Information Extraction): 잘 구조화된 텍스트부터 자유 텍스트까지 다양한 유형의 텍스트를 처리할 수 있는 시스템 개발을 목표로 한다. 이러한 시스템은 표층적인 자연어 처리 지식을 활용하여 덜 구조화된 텍스트에도 적용 가능하다.
- 시각적 정보 추출(Visual Information Extraction): 2017년 3월 경 개발된 최신 기술[16][17]로, 웹 페이지를 브라우저에서 렌더링하고 렌더링된 페이지의 영역 근접성을 기반으로 규칙을 생성한다. HTML 소스 코드에 식별 가능한 패턴이 없지만 시각적 패턴이 있는 복잡한 웹 페이지에서 엔티티를 추출하는 데 유용하다.
6. 접근 방식
정보 추출에는 다양한 접근 방식이 사용된다. 현재 널리 받아들여지는 표준 접근 방식으로는 수작업으로 작성된 정규 표현식을 활용하는 규칙 기반 방식과 나이브 베이즈 분류기, 최대 엔트로피 모델(다항 로지스틱 회귀) 등의 분류기나 순환 신경망, 숨겨진 마르코프 모델, 최대 엔트로피 마르코프 모델(MEMM), 조건부 랜덤 필드(CRF) 등의 시퀀스 모델을 사용하는 기계 학습 기반 방식이 있다.
6. 1. 규칙 기반 접근 방식
수작업으로 작성된 정규 표현식(또는 정규 표현식의 중첩 그룹)이 현재 널리 받아들여지고 있다.[18][19]6. 2. 기계 학습 기반 접근 방식
현재 널리 받아들여지고 있는 표준 접근 방식은 다음과 같다.- 분류기 사용
- * 생성형: 나이브 베이즈 분류기
- * 판별형: 최대 엔트로피 모델 (예: 다항 로지스틱 회귀)
- 시퀀스 모델
- * 순환 신경망
- * 숨겨진 마르코프 모델
- * 조건부 마르코프 모델(CMM) / 최대 엔트로피 마르코프 모델(MEMM)
- * 조건부 랜덤 필드(CRF)는 연구 논문에서 정보 추출[18]부터 길찾기 안내 추출[19]까지 다양한 작업을 위한 정보 추출과 함께 일반적으로 사용된다.
이전에 나열된 표준 접근 방식 중 일부를 결합하는 하이브리드 접근 방식도 존재한다.
7. 한국어 정보 추출의 특징
한국어는 교착어로서 조사가 발달되어 있고 어순이 비교적 자유롭다는 특징이 있다. 이러한 특징은 영어와는 다른 정보 추출 방식을 요구한다.[1]
7. 1. 딥러닝 기반 모델의 활용
최근 BERT, GPT, LLaMA 등 딥러닝 기반 언어 모델의 발전으로 한국어 정보 추출의 성능이 크게 향상되었다. 이러한 모델들은 대규모 한국어 데이터를 학습하여 문맥을 이해하고 개체명 인식, 관계 추출 등의 작업을 높은 정확도로 수행한다.8. 오픈 소스 소프트웨어 및 서비스
- GATE는 무료 정보 추출 시스템과 함께 제공된다.
- 아파치 오픈NLP(OpenNLP)는 자바 기반의 자연어 처리를 위한 기계 학습 도구이다.
- 오픈칼라리스(OpenCalais)는 톰슨 로이터(Thomson Reuters)의 자동화된 정보 추출 웹 서비스이다 (무료 제한 버전).
- 언어 도구를 위한 기계 학습(Machine Learning for Language Toolkit, Mallet)은 정보 추출을 포함한 다양한 자연어 처리 작업을 위한 자바 기반 패키지이다.
- DB피디아 스포트라이트(DBpedia Spotlight)는 자바/스칼라 기반의 오픈소스 도구이자 무료 웹 서비스로, 개체명 인식 및 명칭 해석에 사용될 수 있다.
- 자연어 처리 도구(Natural Language Toolkit)는 파이썬 프로그래밍 언어를 위한 기호 및 통계적 자연어 처리(NLP)를 위한 라이브러리 및 프로그램 모음이다.
- spaCy는 토큰화 및 고유 명사 인식과 같은 작업에 사용되는 인기 있는 오픈소스 자연어 처리 라이브러리이다.
9. 관련 모델
- GPT (생성적 사전 훈련 변환기)는 텍스트 생성 기능으로 알려진 최첨단 언어 모델이다.
- BERT (변환기를 사용한 양방향 인코더 표현)는 자연어 이해 작업을 위해 설계된 트랜스포머 기반 모델이다.
- LLaMA는 다양한 애플리케이션을 위해 텍스트와 비전을 결합한 혁신적인 AI 모델이다.
- spaCy는 토큰화 및 고유 명사 인식과 같은 작업에 사용되는 인기 있는 오픈소스 자연어 처리 라이브러리이다.
참조
[1]
논문
Precision information extraction for rare disease epidemiology at scale
2023
[2]
논문집
A Survey on Open Information Extraction
Association for Computational Linguistics
2018
[3]
논문
Machine Learning for Information Extraction in Informal Domains
http://www.cs.bilken[...]
2000 Kluwer Academic Publishers
2000
[4]
서적
Information Extraction
http://pdfs.semantic[...]
1996
[5]
논문집
Proceedings of the third conference on Applied natural language processing -
1992
[6]
서적
Information Extraction in Finance
Wit Press
2008
[7]
웹사이트
Linked Data - The Story So Far
http://tomheath.com/[...]
[8]
웹사이트
Tim Berners-Lee on the next Web
http://www.ted.com/t[...]
2010-03-27
[9]
간행물
InfoXtract: A Customizable Intermediate Level Information Extraction Engine
https://web.archive.[...]
2008
[10]
논문집
End-to-end neural relation extraction using deep biaffine attention
2019
[11]
논문
A framework for information extraction from tables in biomedical literature
2019-02
[12]
논문
A multi-layered approach to information extraction from tables in biomedical documents
https://www.research[...]
University of Manchester
2018
[13]
서적
Natural Language Processing and Information Systems
2016-06
[14]
논문
A multi-layered approach to information extraction from tables in biomedical documents
https://www.research[...]
University of Manchester
2018
[15]
논문집
Automatic Extraction of Drum Tracks from Polyphonic Music Signals
http://www.csl.sony.[...]
2002
[16]
논문
WYSIWYE: An Algebra for Expressing Spatial and Textual Rules for Information Extraction
2015
[17]
논문
Visual Web Information Extraction with Lixto
2001
[18]
논문
Information extraction from research papers using conditional random fields☆
2006
[19]
웹사이트
Extracting Frame-based Knowledge Representation from Route Instructions
http://www.cs.albany[...]
2006
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com