지식 추출

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

지식 추출은 데이터에서 지식을 자동으로 찾아내는 기술로, 관계형 데이터베이스, XML, 자연어 텍스트 등 다양한 형태의 데이터에서 정보를 추출하는 방법론을 포함한다. 방법론으로는 관계형 데이터베이스를 RDF로 변환하거나, XML을 RDF로 변환하는 방법, 자연어 처리 기술을 활용하여 텍스트에서 정보를 추출하는 방법 등이 있다. 지식 추출은 자연어 처리, 정보 추출, 온톨로지 학습, 의미 주석 등 다양한 기술을 활용하며, 지식 발견 및 데이터 마이닝과 밀접한 관련이 있다. 다양한 지식 추출 도구들이 개발되어 사용되고 있으며, 각 도구는 데이터 소스, 접근 방식, 자동화 정도, 출력 형식 등에서 차이를 보인다.

지식 추출

📚 더 읽어볼만한 페이지

지식 - 정보
정보는 의사결정을 위해 데이터를 가공한 형태로, 목적 적합성, 신뢰성, 적시성을 갖춘 훌륭한 정보는 첩보나 지식으로 분류될 수 있으며, 시대에 따라 의미가 변화하고 경제적 가치를 지니면서 정보 활용 능력의 중요성이 부각되고 있다.
지식 - 이해

1. 개요
2. 지식 추출의 방법론
3. 지식 발견
- 3.1. 입력 데이터
- 3.2. 출력 형식
4. 지식 추출 도구
5. 한국의 지식 추출 현황

2. 지식 추출의 방법론

지식 추출은 다양한 방법론을 통해 이루어지며, 어떤 데이터 소스를 사용하는지, 그리고 어떤 지식을 얻고 싶은지에 따라 적절한 방법을 선택한다.

👆

좌우로 밀어서 보기

기준	설명
소스	어떤 데이터 소스가 포함되는가? (예: 텍스트, 관계형 데이터베이스, XML, CSV)
노출	추출된 지식이 어떤 형태로 나타나며, 어떻게 쿼리할 수 있는가? (예: 온톨로지 파일, 시맨틱 데이터베이스)
동기화	지식 추출 과정이 한 번만 실행되는가, 아니면 결과가 소스와 계속 동기화되는가? 정적 또는 동적인가? 결과가 변경되면 소스에 다시 반영되는가(양방향)?
어휘 재사용	추출 과정에서 기존 어휘를 재사용할 수 있는가? (예: 테이블 열 'firstName'을 foaf:firstName에 매핑) 일부 자동화된 방법은 어휘를 매핑하지 못할 수 있다.
자동화	추출이 얼마나 자동화 또는 지원되는가? (수동, GUI, 반자동, 자동)
도메인 온톨로지 필요	매핑을 위해 미리 만들어진 온톨로지가 필요한가? 아니면 소스에서 스키마를 학습(온톨로지 학습)하여 매핑을 생성하는가?

2.1. 관계형 데이터베이스(RDB)로부터의 지식 추출

Triplify, D2R 서버, [https://capsenta.com/#section-ultrawrap Ultrawrap], Virtuoso RDF 뷰는 관계형 데이터베이스를 RDF로 변환하는 도구이다. 이 과정에서 기존 어휘집과 온톨로지를 재사용할 수 있다. 일반적인 users라는 이름의 관계형 테이블을 변환할 때, 하나의 열(예: name) 또는 여러 열의 집합(예: first_name과 last_name)이 생성된 엔티티의 URI를 제공해야 한다. 보통 기본 키가 사용된다. 다른 모든 열은 이 엔티티와의 관계로 추출될 수 있다.

공식적으로 정의된 의미를 가진 속성이 정보를 해석하는 데 사용(및 재사용)된다. 예를 들어, 사용자 테이블의 marriedTo라는 열은 대칭 관계로 정의될 수 있으며, homepage 열은 FOAF 어휘집의 [http://xmlns.com/foaf/spec/#term_homepage foaf:homepage]라는 속성으로 변환하여 역함수 속성으로 자격을 부여할 수 있다.

도메인 지식 (온톨로지 형태)은 status_id에서 수동으로 생성된 규칙(예: status_id가 2이면 해당 항목은 Teacher 클래스에 속함) 또는 (반)자동화된 방법(온톨로지 학습)을 통해 생성될 수 있다. 다음은 변환 예시이다.

👆

좌우로 밀어서 보기

이름	marriedTo	홈페이지	status_id
피터	메리	http://example.org/Peters_page	1
클라우스	에바	http://example.org/Claus_page	2

위 표에서 user 테이블의 각 항목은 [http://xmlns.com/foaf/spec/#term_Person foaf:Person] 클래스의 인스턴스가 될 수 있으며, RDF 형태로 표현하면 다음과 같다.

:Peter :marriedTo :Mary .
:marriedTo a owl:SymmetricProperty .
:Peter foaf:homepage .
:Peter a foaf:Person .
:Peter a :Student .
:Claus a :Teacher .

2.1.1. RDB 테이블/뷰를 RDF 엔티티/속성/값으로 1:1 매핑

관계형 데이터베이스(RDB)의 테이블, 열, 행은 각각 RDF의 클래스, 속성, 개체로 변환된다. 이 기본적인 방법은 다음과 같다.

* 테이블의 각 열은 속성(술어)이다.
* 각 열 값은 속성 값(객체)이다.
* 각 행 키는 개체 ID(주어)를 나타낸다.
* 각 행은 개체 인스턴스를 나타낸다.
* 각 행(개체 인스턴스)은 공통 주어(개체 ID)를 가진 트리플 모음으로 RDF에서 표현된다.

RDF 의미론을 기반으로 동등한 뷰를 만들기 위한 기본 매핑 알고리즘은 다음과 같다.

# 각 테이블에 대한 RDFS 클래스 생성
# 모든 기본 키와 외래 키를 IRI로 변환
# 각 열에 술어 IRI 할당
# 각 행에 rdf:type 술어를 할당하여 테이블에 해당하는 RDFS 클래스 IRI에 연결
# 기본 키 또는 외래 키의 일부가 아닌 각 열에 대해, 기본 키 IRI를 주어, 열 IRI를 술어로, 열의 값을 객체로 포함하는 트리플 구성

2.1.2. RDB에서 RDF로의 복잡한 매핑

Triplify, D2R 서버, [https://capsenta.com/#section-ultrawrap Ultrawrap], Virtuoso RDF 뷰와 같은 도구들은 관계형 데이터베이스(RDB)를 RDF로 변환하는 데 사용된다. 이 과정에서 기존의 어휘집과 온톨로지를 재사용할 수 있다. 그러나 RDB를 RDF로 1:1 매핑하는 기본적인 방법은 정보 손실 및 의미 부족의 문제가 있다.

1:1 매핑의 한계를 극복하고 더 의미 있는 지식을 추출하기 위해, 다음과 같은 방법들이 사용된다.

* 역공학: 객체-관계 임피던스 불일치에서 발생하는 정보 손실을 복구하기 위해, 관계형 데이터베이스 스키마를 역으로 분석하여 원래의 개체-관계 다이어그램(ERD)을 추론한다.
* 휴리스틱: 스키마 정보를 유도하기 위해, 휴리스틱 알고리즘을 사용하여 데이터베이스 스키마에 내재된 구조(예: 외래 키)를 분석한다.
* 온톨로지 학습: 데이터베이스 테이블의 내용과 값을 분석하여 개념적 계층을 생성하는 방법이다. 예를 들어, 값이 적은 열은 범주가 될 가능성이 높다는 점을 활용한다.
* 온톨로지 정렬: 스키마와 내용을 기존 도메인 온톨로지에 매핑한다. 하지만 적절한 도메인 온톨로지가 없는 경우가 많아, 온톨로지를 먼저 생성해야 할 수도 있다.

이러한 방법들을 통해 RDB에서 RDF로 변환할 때, 단순한 1:1 매핑을 넘어 더 풍부하고 의미 있는 지식 추출이 가능하다.

2.2. XML로부터의 지식 추출

XML은 트리 구조로 되어 있기 때문에 그래프 구조인 RDF로 모든 데이터를 쉽게 표현할 수 있다. https://rhizomik.net/html/redefer/xml2rdf/ XML2RDF는 RDF의 빈 노드를 사용하여 XML 요소와 속성을 RDF 속성으로 변환하는 접근 방식의 한 예시이다. 그러나 이 주제는 관계형 데이터베이스의 경우처럼 더 복잡하다. 관계형 테이블에서 기본 키는 추출된 삼중항의 주어가 되기에 이상적인 후보이다. 하지만 XML 요소는 문맥에 따라 삼중항의 주어, 술어 또는 객체로 변환될 수 있다. XSLT는 XML을 RDF로 수동으로 변환하기 위한 표준 변환 언어로 사용될 수 있다.

2.3. 자연어 텍스트로부터의 지식 추출

기업 문서에 포함된 정보의 약 80%는 자연어로 작성되어 있으며, 이는 비정형 데이터에 해당한다. 비정형 데이터는 지식 추출이 어렵기 때문에, 구조화된 데이터보다 정교한 방법이 필요하다. 그러나 추출된 지식을 대규모로 확보할 수 있다는 장점이 있다.

자연어 텍스트는 일반 텍스트 형태로 비정형 데이터를 제공하는 정보 소스를 의미한다. 추가적으로 마크업 문서(예: HTML 문서)에 포함된 경우, 마크업 요소는 자동으로 제거된다.

자연어 텍스트로부터의 지식 추출에는 다음과 같은 다양한 기술이 활용된다.

* 정보 추출
* 온톨로지 기반 정보 추출
* 온톨로지 학습
* 의미 주석

2.3.1. 언어 주석 / 자연어 처리 (NLP)

DBpedia Spotlight, 오픈칼레이스, Dandelion dataTXT, 제만타 API(Zemanta API), Extractiv, PoolParty Extractor는 개체명 인식을 통해 자유 텍스트를 분석한 다음, 이름 확인을 통해 후보를 구별하고 발견된 개체를 DBpedia 지식 저장소에 연결한다.

지식 추출의 전처리 단계로, 하나 이상의 NLP 도구를 사용하여 언어적 주석을 수행해야 할 수 있다. 지식 추출과 관련된 전형적인 NLP 작업은 다음과 같다.

* 품사(POS) 태깅
* 표제어 추출(LEMMA) 또는 어간 추출(STEM)
* 단어 의미 중의성 해소 (WSD)
* 개체명 인식 (NER)
* 구문 분석 (DEP)
* 얕은 구문 분석(CHUNK)
* 지칭 해결
* 의미 역할 레이블링 (SRL)
* 담론 분석

NLP에서 이러한 데이터는 일반적으로 TSV 형식(구분 기호로 탭을 사용하는 CSV 형식)으로 표현되며, 종종 CoNLL 형식이라고 한다. 지식 추출 워크플로우의 경우, 이러한 데이터에 대한 RDF 보기가 다음 커뮤니티 표준에 따라 생성되었다.

* NLP 교환 형식(NIF)
* 웹 주석 (WA)
* CoNLL-RDF

기타 플랫폼별 형식에는 다음이 포함된다.

* LAPPS 교환 형식(LIF, LAPPS Grid에서 사용)
* NLP 주석 형식(NAF, NewsReader 워크플로우 관리 시스템에서 사용)

2.3.2. 전통적인 정보 추출 (IE)

전통적인 정보 추출은 자연어 처리 기술로, 보통 자연어 텍스트에서 정보를 추출하여 적절한 방식으로 구조화한다. 식별할 정보의 종류는 프로세스를 시작하기 전에 모델에 지정해야 한다. 이러한 이유로 전통적인 정보 추출의 전체 프로세스는 도메인 종속적이다. 정보 추출은 다음 다섯 가지 하위 작업으로 나뉜다.

* 개체명 인식 (NER)
* 공지시 해결 (CO)
* 템플릿 요소 구성 (TE)
* 템플릿 관계 구성 (TR)
* 템플릿 시나리오 생성 (ST)

개체명 인식의 과제는 텍스트에 포함된 모든 개체명을 인식하고 분류하는 것이다(미리 정의된 범주에 개체명 할당). 이는 문법 기반 방법 또는 통계 모델을 적용하여 작동한다.

공지시 해결은 NER에서 인식된 텍스트 내의 동일한 개체를 식별한다. 관련성 있는 등가 관계에는 두 가지 종류가 있다. 첫 번째는 서로 다른 두 개의 표현된 개체(예: IBM 유럽 및 IBM) 간의 관계이고, 두 번째는 개체와 해당 지시적 참조 간의 관계이다(예: 그것과 IBM). 두 종류 모두 공지시 해결을 통해 인식할 수 있다.

템플릿 요소 구성 동안 정보 추출 시스템은 NER 및 CO에 의해 인식된 개체의 설명적 속성을 식별한다. 이러한 속성은 빨간색 또는 큰 것과 같은 일반적인 특성에 해당한다.

템플릿 관계 구성은 템플릿 요소 간에 존재하는 관계를 식별한다. 이러한 관계는 works-for 또는 located-in과 같은 여러 종류가 될 수 있으며, 도메인과 범위가 모두 개체에 해당한다는 제한이 있다.

템플릿 시나리오 생성에서는 텍스트에 설명된 이벤트가 NER 및 CO에 의해 인식된 개체 및 TR에 의해 식별된 관계와 관련하여 식별되고 구조화된다.

2.3.3. 온톨로지 기반 정보 추출 (OBIE)

온톨로지 기반 정보 추출()은 정보 추출의 하위 분야로, 자연어 텍스트에서 정보 추출 과정을 안내하기 위해 하나 이상의 온톨로지를 사용한다. OBIE 시스템은 기존 정보 추출 방법을 사용하여 텍스트에 사용된 온톨로지의 개념, 인스턴스 및 관계를 식별하며, 이들은 처리 후 온톨로지로 구조화된다. 따라서 입력 온톨로지는 추출될 정보의 모델을 구성한다.

2.3.4. 온톨로지 학습 (OL)

온톨로지 학습은 온톨로지를 자동 또는 반자동으로 생성하는 것으로, 자연어 텍스트에서 해당 도메인의 용어를 추출하는 것을 포함한다. 수동으로 온톨로지를 구축하는 것은 매우 노동 집약적이고 시간이 많이 소요되므로, 이 과정을 자동화하려는 동기가 크다.

2.3.5. 의미 주석 (SA)

의미 주석(Semantic Annotation, SA)은 자연어 텍스트에 메타데이터를 추가하여 기계가 이해할 수 있는 형태로 만드는 기술이다. 이 과정은 일반적으로 반자동으로 진행되며, 텍스트의 어휘 용어와 온톨로지의 개념을 연결하여 텍스트의 의미를 기계가 추론할 수 있도록 돕는다.

의미 주석 처리는 일반적으로 다음과 같은 두 가지 하위 작업으로 나뉜다.

# 용어 추출
# 개체 연결

용어 추출 단계에서는 텍스트의 어휘 용어를 추출한다. 토크나이저를 사용하여 단어 경계를 결정하고 약어를 해결한 후, 도메인별 사전을 참고하여 개념에 해당하는 용어를 추출하고 개체 연결 단계에서 이들을 연결한다.

개체 연결 단계에서는 텍스트에서 추출된 용어와 DBpedia와 같은 온톨로지 또는 지식 베이스의 개념을 연결한다. 사전을 통해 용어의 여러 의미에 적합한 후보 개념을 찾고, 문맥 분석을 통해 가장 적절한 의미를 선택하여 용어를 올바른 개념에 할당한다.

예를 들어, "오바마 대통령은 ... 의회에 ... 요청했는데 ..." 라는 문장에서 '오바마 대통령'은 DBpedia의 버락 오바마 리소스에 연결될 수 있다. 이를 통해 의미론적 추론기는 오바마 대통령이 Person 유형이자 미국의 대통령 유형임을 추론할 수 있다.

DBpedia Spotlight, 오픈칼레이스, Dandelion dataTXT, 제만타 API(Zemanta API), Extractiv, PoolParty Extractor 등은 개체명 인식과 이름 확인을 통해 텍스트를 분석하고 발견된 개체를 DBpedia 지식 저장소에 연결하는 도구들이다.

하지만 지식 추출에서의 "의미 주석"은 자연어 처리에서의 의미 분석과는 다르다는 점에 유의해야 한다. 의미 분석은 자연어의 완전하고 기계 판독 가능한 표현을 목표로 하지만, 지식 추출에서의 의미 주석은 이의 매우 기본적인 측면만을 다룬다.

3. 지식 발견

지식 발견은 방대한 양의 데이터에서 해당 데이터에 관한 지식으로 간주될 수 있는 패턴을 자동으로 검색하는 과정이다. 이는 종종 입력 데이터로부터 지식을 도출하는 것으로 묘사된다. 지식 발견은 데이터 마이닝 분야에서 발전했으며, 방법론과 용어 면에서 모두 밀접하게 관련되어 있다.

데이터 마이닝의 가장 잘 알려진 분야는 데이터베이스 지식 발견(KDD)이다. 다른 여러 지식 발견과 마찬가지로 입력 데이터의 추상화를 생성한다. 이 과정을 통해 얻은 지식은 추가적인 데이터가 되어 더 많은 사용과 발견에 활용될 수 있다. 종종 지식 발견의 결과는 실행 가능하지 않으며, 도메인 주도 데이터 마이닝과 같은 기술은 실행 가능한 지식과 통찰력을 발견하고 제공하는 것을 목표로 한다.

지식 발견의 또 다른 응용 분야는 기존 소프트웨어 아티팩트를 이해하는 소프트웨어 현대화, 취약점 발견 및 규정 준수 분야이다. 이 과정은 역공학 개념과 관련이 있다. 일반적으로 기존 소프트웨어에서 얻은 지식은 필요할 때 특정 쿼리를 수행할 수 있는 모델 형태로 제공된다. 개체 관계는 기존 소프트웨어에서 얻은 지식을 나타내는 일반적인 형식이다. 객체 관리 그룹(OMG)은 기존 코드에서 지식 발견을 수행할 목적으로 소프트웨어 자산 및 관련 관계에 대한 온톨로지를 정의하는 지식 발견 메타모델(KDM) 사양을 개발했다. 소프트웨어 마이닝이라고도 하는 기존 소프트웨어 시스템에서 지식 발견은 데이터 마이닝과 밀접하게 관련되어 있으며, 기존 소프트웨어 아티팩트는 위험 관리 및 비즈니스 가치를 위한 엄청난 가치를 포함하고 있어 소프트웨어 시스템의 평가 및 진화에 중요하다. 개별 데이터 세트를 마이닝하는 대신, 소프트웨어 마이닝은 프로세스 흐름 (데이터 흐름, 제어 흐름, 호출 맵 등), 아키텍처, 데이터베이스 스키마, 비즈니스 규칙, 용어, 프로세스와 같은 메타데이터에 중점을 둔다.

3.1. 입력 데이터

지식 발견의 대상이 되는 데이터는 데이터베이스, 소프트웨어, 텍스트, 그래프, 시퀀스, 웹 등 다양하다.

3.2. 출력 형식

지식 발견의 결과는 다음과 같은 다양한 형태로 나타난다.

* 데이터 모델
* 메타데이터
* 메타모델
* 온톨로지
* 지식 표현
* 지식 태그
* 비즈니스 규칙
* 지식 발견 메타모델(KDM)
* 비즈니스 프로세스 모델링 표기법(BPMN)
* 중간 표현
* 자원 기술 프레임워크(RDF)
* 소프트웨어 메트릭

4. 지식 추출 도구

👆

좌우로 밀어서 보기

이름	데이터 소스	데이터 노출	데이터 동기화	매핑 언어	어휘 재사용	매핑 자동화	요구 도메인 온톨로지	GUI 사용 여부
관계형 데이터를 RDF로 직접 매핑하기	관계형 데이터	SPARQL/ETL	동적	#redirect	거짓	자동	거짓	거짓
CSV2RDF4LOD	CSV	ETL	정적	RDF	참	수동	거짓	거짓
TSV, CoNLL \| SPARQL/ RDF 스트림 \| 정적 \| 없음 \| 참 \| 자동 (언어 기술의 사용 사례에 특화, 행 간의 관계 유지) \| 거짓 \| 거짓
구분된 텍스트 파일 \| ETL \| 정적 \| RDF/DAML \| 참 \| 수동 \| 거짓 \| 참
RDB \| SPARQL \| 양방향 \| D2R 맵 \| 참 \| 수동 \| 거짓 \| 거짓
RDB \| 자체 쿼리 언어 \| 동적 \| 시각적 도구 \| 참 \| 수동 \| 거짓 \| 참
RDB \| ETL \| 정적 \| 독점 \| 참 \| 수동 \| 참 \| 참
CSV, XML \| ETL \| 정적 \| \| \| 반자동 \| 거짓 \| 참
XML \| ETL \| 정적 \| xslt \| 참 \| 수동 \| 참 \| 거짓
RDB \| ETL \| 정적 \| 독점 \| 참 \| 수동 \| 참 \| 거짓
RDB \| ETL \| 정적 \| 독점 XML 기반 매핑 언어 \| 참 \| 수동 \| 거짓 \| 참
CSV \| ETL \| 정적 \| MappingMaster \| 참 \| GUI \| 거짓 \| 참
RDB \| ETL \| 정적 \| 독점 \| 참 \| 수동 \| 참 \| 참
CSV \| ETL \| 정적 \| RDF 데이터 큐브 어휘 \| 참 \| 반자동 \| 거짓 \| 참
XML, 텍스트 \| LinkedData \| 동적 \| RDF (SKOS) \| 참 \| 반자동 \| 참 \| 거짓
RDB \| ETL \| 정적 \| \| 거짓 \| 자동, 사용자는 추가로 결과를 미세 조정할 수 있는 기회를 가짐 \| 거짓 \| 참
CSV \| ETL \| 정적 \| 거짓 \| 거짓 \| 수동 \| 거짓 \| 참
RDB \| ETL \| 정적 \| SQL \| 참 \| 수동 \| 참 \| 참
RDB \| ETL \| 정적 \| \| 거짓 \| 자동 \| 거짓 \| 거짓
CSV \| ETL \| 정적 \| 거짓 \| 거짓 \| 자동 \| 거짓 \| 거짓
스프레드시트의 다차원 통계 데이터 \| \| \| 데이터 큐브 어휘 \| 참 \| 수동 \| 거짓 \|
CSV \| ETL \| 정적 \| SKOS \| 거짓 \| 반자동 \| 거짓 \| 참
RDB \| LinkedData \| 동적 \| SQL \| 참 \| 수동 \| 거짓 \| 거짓
RDB \| SPARQL/ETL \| 동적 \| R2RML \| 참 \| 반자동 \| 거짓 \| 참
RDB \| SPARQL \| 동적 \| 메타 스키마 언어 \| 참 \| 반자동 \| 거짓 \| 참
구조적 및 반구조적 데이터 소스 \| SPARQL \| 동적 \| Virtuoso PL & XSLT \| 참 \| 반자동 \| 거짓 \| 거짓
RDB \| RDQL \| 동적 \| SQL \| 참 \| 수동 \| 참 \| 참
CSV \| ETL \| 정적 \| TriG 구문 \| 참 \| 수동 \| 거짓 \| 거짓
XML \| ETL \| 정적 \| 거짓 \| 거짓 \| 자동 \| 거짓 \| 거짓

다음은 자연어 텍스트에서 지식을 추출하는 도구를 분류하는 데 사용할 수 있는 기준이다.

👆

좌우로 밀어서 보기

기준	설명
소스	도구가 처리할 수 있는 입력 형식 (예: 일반 텍스트, HTML 또는 PDF)
액세스 패러다임	도구가 데이터 소스를 쿼리할 수 있는지 또는 추출 프로세스를 위해 전체 덤프가 필요한지 여부
데이터 동기화	추출 프로세스의 결과가 소스와 동기화되는지 여부
사용 출력 온톨로지	도구가 결과를 온톨로지와 연결하는지 여부
매핑 자동화	추출 프로세스의 자동화 정도 (수동, 반자동 또는 자동)
온톨로지 필요	도구가 추출을 위해 온톨로지가 필요한지 여부
GUI 사용	도구가 그래픽 사용자 인터페이스를 제공하는지 여부
접근 방식	도구가 사용하는 접근 방식 (IE, OBIE, OL 또는 SA)
추출된 엔티티	도구가 추출할 수 있는 엔티티 유형 (예: 명명된 엔티티, 개념 또는 관계)
적용된 기술	적용된 기술 (예: NLP, 통계적 방법, 클러스터링 또는 기계 학습)
출력 모델	도구의 결과를 표현하는 데 사용되는 모델 (예: RDF 또는 OWL)
지원되는 도메인	지원되는 도메인 (예: 경제 또는 생물학)
지원되는 언어	처리할 수 있는 언어 (예: 영어 또는 독일어)

다음은 자연어 소스에서 지식 추출을 위한 일부 도구들의 특징을 나타낸 표이다.

👆

좌우로 밀어서 보기

이름	소스	액세스 패러다임	데이터 동기화	사용 출력 온톨로지	매핑 자동화	온톨로지 필요	GUI 사용	접근 방식	추출된 엔티티	적용된 기술	출력 모델	지원되는 도메인	지원되는 언어
Rocket Software	일반 텍스트, HTML, XML, SGML	덤프	아니요	예	자동	예	예	IE	명명된 엔티티, 관계, 이벤트	언어 규칙	독점	도메인 독립적	영어, 스페인어, 아랍어, 중국어, 인도네시아어
AlchemyAPI	일반 텍스트, HTML				자동		예	SA					다국어
ANNIE	일반 텍스트	덤프				예	예	IE		유한 상태 알고리즘			다국어
ASIUM	일반 텍스트	덤프			반자동		예	OL	개념, 개념 계층	NLP, 클러스터링
Attensity Exhaustive Extraction					자동			IE	명명된 엔티티, 관계, 이벤트	NLP
Dandelion API	일반 텍스트, HTML, URL	REST	아니요	아니요	자동	아니요	예	SA	명명된 엔티티, 개념	통계적 방법	JSON	도메인 독립적	다국어
DBpedia Spotlight	일반 텍스트, HTML	덤프, SPARQL	예	예	자동	아니요	예	SA	각 단어에 대한 주석, 비정지 단어에 대한 주석	NLP, 통계적 방법, 기계 학습	RDFa	도메인 독립적	영어
EntityClassifier.eu	일반 텍스트, HTML	덤프	예	예	자동	아니요	예	IE, OL, SA	각 단어에 대한 주석, 비정지 단어에 대한 주석	규칙 기반 문법	XML	도메인 독립적	영어, 독일어, 네덜란드어
FRED	일반 텍스트	덤프, REST API	예	예	자동	아니요	예	IE, OL, SA, 온톨로지 설계 패턴, 프레임 의미론	(다중)단어 NIF 또는 EarMark 주석, 술어, 인스턴스, 구성 의미론, 개념 분류법, 프레임, 의미 역할, 구문 관계, 이벤트, 양상, 시제, 엔티티 연결, 이벤트 연결, 감성	NLP, 기계 학습, 휴리스틱 규칙	RDF/OWL	도메인 독립적	영어, 번역을 통한 다른 언어
iDocument	HTML, PDF, DOC	SPARQL		예			예	OBIE	인스턴스, 속성 값	NLP		개인, 비즈니스
NetOwl Extractor	일반 텍스트, HTML, XML, SGML, PDF, MS Office	덤프	아니요	예	자동	예	예	IE	명명된 엔티티, 관계, 이벤트	NLP	XML, JSON, RDF-OWL, 기타	여러 도메인	영어, 아랍어, 중국어(간체 및 번체), 프랑스어, 한국어, 페르시아어(파르시 및 다리), 러시아어, 스페인어
OntoGen					반자동		예	OL	개념, 개념 계층, 비 분류적 관계, 인스턴스	NLP, 기계 학습, 클러스터링
OntoLearn	일반 텍스트, HTML	덤프	아니요	예	자동	예	아니요	OL	개념, 개념 계층, 인스턴스	NLP, 통계적 방법	독점	도메인 독립적	영어
OntoLearn Reloaded	일반 텍스트, HTML	덤프	아니요	예	자동	예	아니요	OL	개념, 개념 계층, 인스턴스	NLP, 통계적 방법	독점	도메인 독립적	영어
OntoSyphon	HTML, PDF, DOC	덤프, 검색 엔진 쿼리	아니요	예	자동	예	아니요	OBIE	개념, 관계, 인스턴스	NLP, 통계적 방법	RDF	도메인 독립적	영어
ontoX	일반 텍스트	덤프	아니요	예	반자동	예	아니요	OBIE	인스턴스, 데이터 유형 속성 값	휴리스틱 기반 방법	독점	도메인 독립적	언어 독립적
OpenCalais	일반 텍스트, HTML, XML	덤프	아니요	예	자동	예	아니요	SA	엔티티에 대한 주석, 이벤트에 대한 주석, 사실에 대한 주석	NLP, 기계 학습	RDF	도메인 독립적	영어, 프랑스어, 스페인어
PoolParty Extractor	일반 텍스트, HTML, DOC, ODT	덤프	아니요	예	자동	예	예	OBIE	명명된 엔티티, 개념, 관계, 텍스트를 분류하는 개념, 풍부함	NLP, 기계 학습, 통계적 방법	RDF, OWL	도메인 독립적	영어, 독일어, 스페인어, 프랑스어
Rosoka	일반 텍스트, HTML, XML, SGML, PDF, MS Office	덤프	예	예	자동	아니요	예	IE	명명된 엔티티 추출, 엔티티 해결, 관계 추출, 속성, 개념, 다중 벡터 감성 분석, 지오태깅, 언어 식별	NLP, 기계 학습	XML, JSON, POJO, RDF	여러 도메인	다국어 200개 이상의 언어
SCOOBIE	일반 텍스트, HTML	덤프	아니요	예	자동	아니요	아니요	OBIE	인스턴스, 속성 값, RDFS 유형	NLP, 기계 학습	RDF, RDFa	도메인 독립적	영어, 독일어
SemTag	HTML	덤프	아니요	예	자동	예	아니요	SA		기계 학습	데이터베이스 레코드	도메인 독립적	언어 독립적
smart FIX	일반 텍스트, HTML, PDF, DOC, e-Mail	덤프	예	아니요	자동	아니요	예	OBIE	명명된 엔티티	NLP, 기계 학습	독점	도메인 독립적	영어, 독일어, 프랑스어, 네덜란드어, 폴란드어
Text2Onto	일반 텍스트, HTML, PDF	덤프	예	아니요	반자동	예	예	OL	개념, 개념 계층, 비 분류적 관계, 인스턴스, 공리	NLP, 통계적 방법, 기계 학습, 규칙 기반 방법	OWL	도메인 독립적	영어, 독일어, 스페인어
Text-To-Onto	일반 텍스트, HTML, PDF, PostScript	덤프			반자동	예	예	OL	개념, 개념 계층, 비 분류적 관계, 개념을 참조하는 어휘 엔티티, 관계를 참조하는 어휘 엔티티	NLP, 기계 학습, 클러스터링, 통계적 방법			독일어
ThatNeedle	일반 텍스트	덤프			자동		아니요		개념, 관계, 계층	NLP, 독점	JSON	여러 도메인	영어
The Wiki Machine	일반 텍스트, HTML, PDF, DOC	덤프	아니요	예	자동	예	예	SA	고유 명사에 대한 주석, 일반 명사에 대한 주석	기계 학습	RDFa	도메인 독립적	영어, 독일어, 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 러시아어
ThingFinder								IE	명명된 엔티티, 관계, 이벤트				다국어

5. 한국의 지식 추출 현황

한국은 지식 추출 기술 개발과 활용에 적극적으로 참여하고 있으며, 정부 주도의 연구 개발 사업과 민간 기업의 기술 혁신이 활발하게 이루어지고 있다. 특히, 과학기술정보통신부는 인공지능 국가전략의 일환으로 지식 추출 기술 개발을 지원하고 있으며, 한국전자통신연구원(ETRI) 등 주요 연구기관에서 관련 연구를 수행하고 있다.