정보 추출

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

정보 추출은 텍스트에서 구조화된 정보를 자동으로 추출하는 기술로, 1970년대 후반 자연어 처리(NLP)의 초기 단계부터 연구가 시작되었다. 1980년대에는 금융 뉴스 제공을 위한 시스템이 개발되었으며, 1987년부터 개최된 메시지 이해 컨퍼런스(MUC)를 통해 기술 발전을 이루었다. 현재는 비구조화된 데이터 증가에 따라 중요성이 커지고 있으며, 템플릿 채우기, 지식 베이스 채우기, 개체명 인식, 관계 추출 등 다양한 하위 작업을 포함한다. 정보 추출에는 규칙 기반, 기계 학습 기반 접근 방식이 사용되며, 최근에는 딥러닝 기반 모델의 활용이 두드러진다. 또한, 텍스트 엔지니어링을 위한 GATE, 아파치 오픈NLP, spaCy 등 다양한 오픈 소스 소프트웨어 및 서비스가 존재한다.

정보 추출

지도 정보

기본 정보

정의	텍스트로부터 구조화된 정보를 추출하는 기술
관련 분야	자연어 처리 기계 학습
유형	개체명 인식 관계 추출 사건 추출 감성 분석

정보 추출 접근 방법

규칙 기반 접근 방식	언어 규칙과 패턴을 기반으로 정보 추출
기계 학습 기반 접근 방식	훈련 데이터를 사용하여 모델 학습 후 정보 추출

정보 추출의 활용

분야	비즈니스 인텔리전스 의료 정보 소셜 미디어 분석 지식 그래프 구축

정보 추출의 과제

어려움	모호성 문맥 의존성 다양한 형식

평가 지표

성능 평가	정밀도 재현율 F1 점수

추가 정보

정보 추출 발전	기계 학습의 발전으로 정교한 정보 추출 가능
미래 전망	딥 러닝을 이용한 더욱 향상된 성능 기대

📚 더 읽어볼만한 페이지

자연어 처리 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
자연어 처리 - 정보 검색
정보 검색은 컴퓨터를 사용하여 정보를 찾는 기술과 관련된 분야로, 데이터 집합, 색인, 랭킹 등의 요소로 구성되며, 다양한 모델과 평가 지표를 통해 검색 성능을 측정하고, 디지털 도서관, 검색 엔진 등 광범위한 분야에 응용된다.

2. 역사

정보 추출은 자연어 처리(NLP) 초기인 1970년대 후반부터 시작되었다. 1980년대 중반 카네기 그룹의 JASPER 개발과 1987년부터 시작된 메시지 이해 컨퍼런스(MUC)는 정보 추출 기술 발전에 기여했다. 미국 국방고등연구계획국(DARPA)은 정부 분석가들의 단순 작업 자동화를 위해 정보 추출 연구를 지원했다.

2.1. 초기 상용 시스템 (1980년대)

1980년대 중반, 카네기 그룹(Carnegie Group Inc)은 로이터(Reuters)를 위해 금융 거래자들에게 실시간 금융 뉴스를 제공하는 JASPER와 같은 초기 상용 시스템을 개발했다.

2.2. 메시지 이해 컨퍼런스 (MUC) (1987년 ~ 1998년)

1987년부터 일련의 메시지 이해 컨퍼런스(Message Understanding Conference, MUC)가 정보 추출 기술 발전을 촉진했다. MUC는 경쟁 기반 컨퍼런스로, 다음과 같은 분야에 초점을 맞추었다.

👆

좌우로 밀어서 보기

컨퍼런스	분야
MUC-1 (1987), MUC-2 (1989)	해군 작전 메시지
MUC-3 (1991), MUC-4 (1992)	중남미 국가의 테러리즘
MUC-5 (1993)	합작 투자 및 마이크로 전자 분야
MUC-6 (1995)	경영 변화 관련 뉴스 기사
MUC-7 (1998)	위성 발사 보고서

미국 국방고등연구계획국(DARPA)은 테러 관련 정보 분석 자동화 등 정부 분석가들의 단순 작업 자동화를 위해 정보 추출 연구를 지원했다.

3. 현재의 중요성

현재 정보 추출의 중요성은 구조화되지 않은 형태로 이용 가능한 정보의 양이 증가하고 있다는 점과 관련이 있다. 월드 와이드 웹의 발명가인 팀 버너스-리는 기존의 인터넷을 '문서의 웹'이라고 언급하며 더 많은 콘텐츠를 데이터의 웹으로 제공해야 한다고 주장한다. 이것이 실현될 때까지 웹은 대부분 의미 메타데이터가 부족한 비구조화된 문서로 구성된다. 이러한 문서에 포함된 지식은 관계형 형태로 변환하거나 XML 태그로 마크업하여 기계 처리를 위해 더욱 접근 가능하게 만들 수 있다. 뉴스 데이터 피드를 모니터링하는 지능형 에이전트는 정보 추출을 통해 비구조화된 데이터를 추론할 수 있는 형태로 변환해야 한다. 정보 추출의 일반적인 응용 프로그램은 자연어로 작성된 문서 집합을 스캔하고 추출된 정보로 데이터베이스를 채우는 것이다.

4. 주요 작업 및 하위 작업

정보 추출은 텍스트에서 정보를 추출하여 구조화된 형태로 만드는 작업으로, 텍스트 단순화 문제와 관련이 있다. 즉, 기계가 텍스트를 더 쉽게 읽을 수 있도록 돕는 것이다.

정보 추출의 주요 작업 및 하위 작업은 다음과 같다.

* 템플릿 채우기: 문서에서 미리 정해진 정보(예: 가해자, 피해자, 시간)를 추출한다.
* 이벤트 추출: 문서에서 발생하는 사건에 대한 정보를 추출한다.
* 지식 베이스 채우기: 여러 문서에서 추출한 사실 정보를 데이터베이스 형태로 저장한다.
* [[개체명 인식]]: 사람, 장소, 기관 등 특정 개체를 인식하고 고유 식별자를 부여한다.
* [[공참조 해결]]: 문장 내 또는 문장 간 대명사 등이 가리키는 대상을 찾아 연결한다.
* [[관계 추출]]: 개체들 간의 관계(예: '사람-직장', '사람-위치')를 파악한다.
* 반구조화 정보 추출: 표, 주석 등 문서 내 구조화된 정보를 추출한다.
* 언어 및 어휘 분석: 용어 추출 등을 통해 문서의 언어적 특징을 분석한다.
* 오디오 추출: 음악에서 리듬 정보 등 특정 요소를 추출한다.

위 목록은 정보 추출 작업의 일부이며, 정보 추출의 정확한 범위는 아직 명확하게 정의되지 않았다. 많은 경우, 더 큰 목표를 달성하기 위해 여러 하위 작업이 결합되기도 한다. 정보 추출에는 기계 학습, 통계 분석, 자연어 처리 등의 기술이 활용된다.

최근에는 텍스트뿐만 아니라 멀티미디어 문서에서도 정보를 추출하는 연구가 활발히 진행되고 있으며, 다양한 종류의 문서에서 추출된 정보를 통합하는 연구도 이루어지고 있다.

4.1. 템플릿 채우기

문서에서 고정된 필드 집합(예: 가해자, 피해자, 시간)을 추출하는 것이다. 예를 들어, 테러 공격에 대한 신문 기사에서 가해자, 피해자, 시간 등을 추출하는 것이 이에 해당한다.

4.2. 이벤트 추출

입력 문서를 기반으로 이벤트 템플릿을 출력한다. 예를 들어, 신문 기사에서 여러 테러 공격을 설명하는 경우가 이에 해당한다.

4.3. 지식 베이스 채우기

문서 집합을 기반으로 주어진 사실의 데이터베이스를 채운다. 일반적으로 데이터베이스는 (개체 1, 관계, 개체 2) 형태의 세 쌍으로 구성된다. 예를 들면 다음과 같다.

* (버락 오바마, 배우자, 미셸 오바마)

4.4. 개체명 인식 (Named Entity Recognition, NER)

개체명 인식은 사람, 조직, 장소, 시간 표현 및 특정 유형의 숫자 표현을 인식하기 위해 기존의 도메인 지식이나 다른 문장에서 추출한 정보를 사용한다. 일반적으로 인식 작업에는 추출된 개체에 고유 식별자를 할당하는 것이 포함된다. 더 간단한 작업은 개체명 탐지인데, 이는 기존의 개체 인스턴스에 대한 지식 없이 개체를 탐지하는 것을 목표로 한다. 예를 들어, "M. Smith는 낚시를 좋아합니다."라는 문장을 처리할 때, 개체명 탐지는 "M. Smith"라는 구절이 사람을 가리킨다는 것을 탐지하지만, 해당 문장에서 언급된 특정 M. Smith에 대한 지식을 가지고 있거나 사용하지 않을 수 있다.

4.5. 공참조 해결 (Coreference Resolution)

텍스트에서 공참조 및 담화 지시어 링크를 탐지한다. 정보 추출 작업에서 이는 일반적으로 이전에 추출된 개체명 간의 링크를 찾는 것으로 제한된다. 예를 들어, "International Business Machines"와 "IBM"은 동일한 실제 세계 개체를 가리킨다. "M. Smith는 낚시를 좋아합니다. 그러나 그는 자전거 타는 것을 좋아하지 않습니다."라는 두 문장을 고려하면, "he"가 이전에 탐지된 사람 "M. Smith"를 가리키는 것을 탐지하는 것이 유익할 것이다.

4.6. 관계 추출 (Relation Extraction)

관계 추출은 개체 간의 관계를 식별하는 것을 말한다. 예를 들면 다음과 같다.

* 사람이 조직에서 근무하는 관계 ("Bill은 IBM에서 근무합니다."라는 문장에서 추출)
* 사람이 특정 위치에 있는 관계 ("Bill은 프랑스에 있습니다."라는 문장에서 추출)

4.7. 반구조화 정보 추출

반구조화 정보 추출은 게시를 통해 손실된 일종의 정보 구조를 복원하려고 시도하는 모든 정보 추출을 의미할 수 있다. 그 예시는 다음과 같다.

* 표 추출: 문서에서 표를 찾고 추출한다.
* 표 정보 추출: 표에서 구조화된 방식으로 정보를 추출한다. 이 작업은 표 추출보다 더 복잡하다. 표 추출은 단지 첫 번째 단계일 뿐이며, 셀, 행, 열의 역할을 이해하고, 표 내부의 정보를 연결하고, 표에 표시된 정보를 이해하는 것은 표 정보 추출에 필요한 추가 작업이다.
* 주석 추출: 각 문장의 작성자 간의 링크를 복원하기 위해 기사의 실제 내용에서 주석을 추출한다.

4.8. 언어 및 어휘 분석

용어 추출은 주어진 말뭉치에서 관련 용어를 찾는 것을 말한다.

4.9. 오디오 추출

템플릿 기반 음악 추출은 주어진 레퍼토리에서 가져온 오디오 신호에서 관련 특성(예: 타악기 소리 발생 시간)을 찾는 것이다. 이를 통해 음악 작품의 필수 리듬 구성 요소를 나타낼 수 있다.

5. 월드 와이드 웹(WWW) 응용

웹의 확산으로 인해 온라인에서 이용 가능한 방대한 양의 데이터를 처리하기 위한 정보 추출 시스템 개발의 필요성이 증가했다. 온라인 텍스트 정보 추출 시스템은 저렴한 비용, 개발 유연성, 새로운 도메인 적응 용이성 등의 요구 사항을 충족해야 한다.

* 래퍼(Wrapper): 웹 정보 추출을 위한 언어적으로 덜 집약적인 접근 방식으로, 특정 페이지의 콘텐츠를 추출하는 규칙 집합이다. 래퍼는 수동으로 개발할 경우 시간과 전문성이 필요하지만, 기계 학습(지도 학습 또는 비지도 학습)을 통해 자동으로 규칙을 생성할 수 있다.
* 적응형 정보 추출(Adaptive Information Extraction): 잘 구조화된 텍스트부터 자유 텍스트까지 다양한 유형의 텍스트를 처리할 수 있는 시스템 개발을 목표로 한다. 이러한 시스템은 표층적인 자연어 처리 지식을 활용하여 덜 구조화된 텍스트에도 적용 가능하다.
* 시각적 정보 추출(Visual Information Extraction): 2017년 3월 경 개발된 최신 기술로, 웹 페이지를 브라우저에서 렌더링하고 렌더링된 페이지의 영역 근접성을 기반으로 규칙을 생성한다. HTML 소스 코드에 식별 가능한 패턴이 없지만 시각적 패턴이 있는 복잡한 웹 페이지에서 엔티티를 추출하는 데 유용하다.

6. 접근 방식

정보 추출에는 다양한 접근 방식이 사용된다. 현재 널리 받아들여지는 표준 접근 방식으로는 수작업으로 작성된 정규 표현식을 활용하는 규칙 기반 방식과 나이브 베이즈 분류기, 최대 엔트로피 모델(다항 로지스틱 회귀) 등의 분류기나 순환 신경망, 숨겨진 마르코프 모델, 최대 엔트로피 마르코프 모델(MEMM), 조건부 랜덤 필드(CRF) 등의 시퀀스 모델을 사용하는 기계 학습 기반 방식이 있다.

6.1. 규칙 기반 접근 방식

수작업으로 작성된 정규 표현식(또는 정규 표현식의 중첩 그룹)이 현재 널리 받아들여지고 있다.

6.2. 기계 학습 기반 접근 방식

현재 널리 받아들여지고 있는 표준 접근 방식은 다음과 같다.

* 분류기 사용
생성형: 나이브 베이즈 분류기
판별형: 최대 엔트로피 모델 (예: 다항 로지스틱 회귀)
* 시퀀스 모델
순환 신경망
숨겨진 마르코프 모델
조건부 마르코프 모델(CMM) / 최대 엔트로피 마르코프 모델(MEMM)
조건부 랜덤 필드(CRF)는 연구 논문에서 정보 추출부터 길찾기 안내 추출까지 다양한 작업을 위한 정보 추출과 함께 일반적으로 사용된다.

이전에 나열된 표준 접근 방식 중 일부를 결합하는 하이브리드 접근 방식도 존재한다.

7. 한국어 정보 추출의 특징

한국어는 교착어로서 조사가 발달되어 있고 어순이 비교적 자유롭다는 특징이 있다. 이러한 특징은 영어와는 다른 정보 추출 방식을 요구한다.

7.1. 딥러닝 기반 모델의 활용

최근 BERT, GPT, LLaMA 등 딥러닝 기반 언어 모델의 발전으로 한국어 정보 추출의 성능이 크게 향상되었다. 이러한 모델들은 대규모 한국어 데이터를 학습하여 문맥을 이해하고 개체명 인식, 관계 추출 등의 작업을 높은 정확도로 수행한다.

8. 오픈 소스 소프트웨어 및 서비스

* GATE는 무료 정보 추출 시스템과 함께 제공된다.
* 아파치 오픈NLP(OpenNLP)는 자바 기반의 자연어 처리를 위한 기계 학습 도구이다.
* 오픈칼라리스(OpenCalais)는 톰슨 로이터(Thomson Reuters)의 자동화된 정보 추출 웹 서비스이다 (무료 제한 버전).
* 언어 도구를 위한 기계 학습(Machine Learning for Language Toolkit, Mallet)은 정보 추출을 포함한 다양한 자연어 처리 작업을 위한 자바 기반 패키지이다.
* DB피디아 스포트라이트(DBpedia Spotlight)는 자바/스칼라 기반의 오픈소스 도구이자 무료 웹 서비스로, 개체명 인식 및 명칭 해석에 사용될 수 있다.
* 자연어 처리 도구(Natural Language Toolkit)는 파이썬 프로그래밍 언어를 위한 기호 및 통계적 자연어 처리(NLP)를 위한 라이브러리 및 프로그램 모음이다.
* spaCy는 토큰화 및 고유 명사 인식과 같은 작업에 사용되는 인기 있는 오픈소스 자연어 처리 라이브러리이다.

9. 관련 모델

* GPT (생성적 사전 훈련 변환기)는 텍스트 생성 기능으로 알려진 최첨단 언어 모델이다.
* BERT (변환기를 사용한 양방향 인코더 표현)는 자연어 이해 작업을 위해 설계된 트랜스포머 기반 모델이다.
* LLaMA는 다양한 애플리케이션을 위해 텍스트와 비전을 결합한 혁신적인 AI 모델이다.
* spaCy는 토큰화 및 고유 명사 인식과 같은 작업에 사용되는 인기 있는 오픈소스 자연어 처리 라이브러리이다.