맨위로가기

지식 추출

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

지식 추출은 데이터에서 지식을 자동으로 찾아내는 기술로, 관계형 데이터베이스, XML, 자연어 텍스트 등 다양한 형태의 데이터에서 정보를 추출하는 방법론을 포함한다. 방법론으로는 관계형 데이터베이스를 RDF로 변환하거나, XML을 RDF로 변환하는 방법, 자연어 처리 기술을 활용하여 텍스트에서 정보를 추출하는 방법 등이 있다. 지식 추출은 자연어 처리, 정보 추출, 온톨로지 학습, 의미 주석 등 다양한 기술을 활용하며, 지식 발견 및 데이터 마이닝과 밀접한 관련이 있다. 다양한 지식 추출 도구들이 개발되어 사용되고 있으며, 각 도구는 데이터 소스, 접근 방식, 자동화 정도, 출력 형식 등에서 차이를 보인다.

더 읽어볼만한 페이지

  • 지식 - 정보
    정보는 의사결정을 위해 데이터를 가공한 형태로, 목적 적합성, 신뢰성, 적시성을 갖춘 훌륭한 정보는 첩보나 지식으로 분류될 수 있으며, 시대에 따라 의미가 변화하고 경제적 가치를 지니면서 정보 활용 능력의 중요성이 부각되고 있다.
  • 지식 - 이해
    이해는 지식에 기반하여 대상이나 현상의 의미와 관계를 파악하는 능력으로, 비유나 분석을 통해 이루어지며 인지심리학과 인공지능 분야에서 연구되는 개념이다.
지식 추출

2. 지식 추출의 방법론

지식 추출은 다양한 방법론을 통해 이루어지며, 어떤 데이터 소스를 사용하는지, 그리고 어떤 지식을 얻고 싶은지에 따라 적절한 방법을 선택한다.

기준설명
소스어떤 데이터 소스가 포함되는가? (예: 텍스트, 관계형 데이터베이스, XML, CSV)
노출추출된 지식이 어떤 형태로 나타나며, 어떻게 쿼리할 수 있는가? (예: 온톨로지 파일, 시맨틱 데이터베이스)
동기화지식 추출 과정이 한 번만 실행되는가, 아니면 결과가 소스와 계속 동기화되는가? 정적 또는 동적인가? 결과가 변경되면 소스에 다시 반영되는가(양방향)?
어휘 재사용추출 과정에서 기존 어휘를 재사용할 수 있는가? (예: 테이블 열 firstName을 foaf:firstName에 매핑) 일부 자동화된 방법은 어휘를 매핑하지 못할 수 있다.
자동화추출이 얼마나 자동화 또는 지원되는가? (수동, GUI, 반자동, 자동)
도메인 온톨로지 필요매핑을 위해 미리 만들어진 온톨로지가 필요한가? 아니면 소스에서 스키마를 학습(온톨로지 학습)하여 매핑을 생성하는가?


2. 1. 관계형 데이터베이스(RDB)로부터의 지식 추출

Triplify, D2R 서버, [https://capsenta.com/#section-ultrawrap Ultrawrap], Virtuoso RDF 뷰는 관계형 데이터베이스를 RDF로 변환하는 도구이다. 이 과정에서 기존 어휘집과 온톨로지를 재사용할 수 있다. 일반적인 ''users''라는 이름의 관계형 테이블을 변환할 때, 하나의 열(예: ''name'') 또는 여러 열의 집합(예: ''first_name''과 ''last_name'')이 생성된 엔티티의 URI를 제공해야 한다. 보통 기본 키가 사용된다. 다른 모든 열은 이 엔티티와의 관계로 추출될 수 있다.

공식적으로 정의된 의미를 가진 속성이 정보를 해석하는 데 사용(및 재사용)된다. 예를 들어, 사용자 테이블의 ''marriedTo''라는 열은 대칭 관계로 정의될 수 있으며, ''homepage'' 열은 FOAF 어휘집의 [http://xmlns.com/foaf/spec/#term_homepage foaf:homepage]라는 속성으로 변환하여 역함수 속성으로 자격을 부여할 수 있다.

도메인 지식 (온톨로지 형태)은 ''status_id''에서 수동으로 생성된 규칙(예: ''status_id''가 2이면 해당 항목은 Teacher 클래스에 속함) 또는 (반)자동화된 방법(온톨로지 학습)을 통해 생성될 수 있다. 다음은 변환 예시이다.

이름marriedTo홈페이지status_id
피터메리http://example.org/Peters_page1
클라우스에바http://example.org/Claus_page2



위 표에서 ''user'' 테이블의 각 항목은 [http://xmlns.com/foaf/spec/#term_Person foaf:Person] 클래스의 인스턴스가 될 수 있으며, RDF 형태로 표현하면 다음과 같다.

:Peter :marriedTo :Mary .

:marriedTo a owl:SymmetricProperty .

:Peter foaf:homepage .

:Peter a foaf:Person .

:Peter a :Student .

:Claus a :Teacher .

2. 1. 1. RDB 테이블/뷰를 RDF 엔티티/속성/값으로 1:1 매핑

관계형 데이터베이스(RDB)의 테이블, 열, 행은 각각 RDF의 클래스, 속성, 개체로 변환된다. 이 기본적인 방법은 다음과 같다.

  • 테이블의 각 열은 속성(술어)이다.
  • 각 열 값은 속성 값(객체)이다.
  • 각 행 키는 개체 ID(주어)를 나타낸다.
  • 각 행은 개체 인스턴스를 나타낸다.
  • 각 행(개체 인스턴스)은 공통 주어(개체 ID)를 가진 트리플 모음으로 RDF에서 표현된다.


RDF 의미론을 기반으로 동등한 뷰를 만들기 위한 기본 매핑 알고리즘은 다음과 같다.

# 각 테이블에 대한 RDFS 클래스 생성

# 모든 기본 키와 외래 키를 IRI로 변환

# 각 열에 술어 IRI 할당

# 각 행에 rdf:type 술어를 할당하여 테이블에 해당하는 RDFS 클래스 IRI에 연결

# 기본 키 또는 외래 키의 일부가 아닌 각 열에 대해, 기본 키 IRI를 주어, 열 IRI를 술어로, 열의 값을 객체로 포함하는 트리플 구성

2. 1. 2. RDB에서 RDF로의 복잡한 매핑

Triplify, D2R 서버, [https://capsenta.com/#section-ultrawrap Ultrawrap], Virtuoso RDF 뷰와 같은 도구들은 관계형 데이터베이스(RDB)를 RDF로 변환하는 데 사용된다. 이 과정에서 기존의 어휘집과 온톨로지를 재사용할 수 있다. 그러나 RDB를 RDF로 1:1 매핑하는 기본적인 방법은 정보 손실 및 의미 부족의 문제가 있다.

1:1 매핑의 한계를 극복하고 더 의미 있는 지식을 추출하기 위해, 다음과 같은 방법들이 사용된다.

  • 역공학: 객체-관계 임피던스 불일치에서 발생하는 정보 손실을 복구하기 위해, 관계형 데이터베이스 스키마를 역으로 분석하여 원래의 개체-관계 다이어그램(ERD)을 추론한다.
  • 휴리스틱: 스키마 정보를 유도하기 위해, 휴리스틱 알고리즘을 사용하여 데이터베이스 스키마에 내재된 구조(예: 외래 키)를 분석한다.
  • 온톨로지 학습: 데이터베이스 테이블의 내용과 값을 분석하여 개념적 계층을 생성하는 방법이다. 예를 들어, 값이 적은 열은 범주가 될 가능성이 높다는 점을 활용한다.
  • 온톨로지 정렬: 스키마와 내용을 기존 도메인 온톨로지에 매핑한다. 하지만 적절한 도메인 온톨로지가 없는 경우가 많아, 온톨로지를 먼저 생성해야 할 수도 있다.


이러한 방법들을 통해 RDB에서 RDF로 변환할 때, 단순한 1:1 매핑을 넘어 더 풍부하고 의미 있는 지식 추출이 가능하다.

2. 2. XML로부터의 지식 추출

XML은 트리 구조로 되어 있기 때문에 그래프 구조인 RDF로 모든 데이터를 쉽게 표현할 수 있다. https://rhizomik.net/html/redefer/xml2rdf/ XML2RDF는 RDF의 빈 노드를 사용하여 XML 요소와 속성을 RDF 속성으로 변환하는 접근 방식의 한 예시이다. 그러나 이 주제는 관계형 데이터베이스의 경우처럼 더 복잡하다. 관계형 테이블에서 기본 키는 추출된 삼중항의 주어가 되기에 이상적인 후보이다. 하지만 XML 요소는 문맥에 따라 삼중항의 주어, 술어 또는 객체로 변환될 수 있다. XSLT는 XML을 RDF로 수동으로 변환하기 위한 표준 변환 언어로 사용될 수 있다.

2. 3. 자연어 텍스트로부터의 지식 추출

기업 문서에 포함된 정보의 약 80%는 자연어로 작성되어 있으며, 이는 비정형 데이터에 해당한다. 비정형 데이터는 지식 추출이 어렵기 때문에, 구조화된 데이터보다 정교한 방법이 필요하다. 그러나 추출된 지식을 대규모로 확보할 수 있다는 장점이 있다.

자연어 텍스트는 일반 텍스트 형태로 비정형 데이터를 제공하는 정보 소스를 의미한다. 추가적으로 마크업 문서(예: HTML 문서)에 포함된 경우, 마크업 요소는 자동으로 제거된다.

자연어 텍스트로부터의 지식 추출에는 다음과 같은 다양한 기술이 활용된다.

  • 정보 추출
  • 온톨로지 기반 정보 추출
  • 온톨로지 학습
  • 의미 주석

2. 3. 1. 언어 주석 / 자연어 처리 (NLP)

DBpedia Spotlight, 오픈칼레이스, Dandelion dataTXT, 제만타 API(Zemanta API), Extractiv, PoolParty Extractor는 개체명 인식을 통해 자유 텍스트를 분석한 다음, 이름 확인을 통해 후보를 구별하고 발견된 개체를 DBpedia 지식 저장소에 연결한다.[1]

지식 추출의 전처리 단계로, 하나 이상의 NLP 도구를 사용하여 언어적 주석을 수행해야 할 수 있다. 지식 추출과 관련된 전형적인 NLP 작업은 다음과 같다.

  • 품사(POS) 태깅
  • 표제어 추출(LEMMA) 또는 어간 추출(STEM)
  • 단어 의미 중의성 해소 (WSD)
  • 개체명 인식 (NER)
  • 구문 분석 (DEP)
  • 얕은 구문 분석(CHUNK)
  • 지칭 해결
  • 의미 역할 레이블링 (SRL)
  • 담론 분석


NLP에서 이러한 데이터는 일반적으로 TSV 형식(구분 기호로 탭을 사용하는 CSV 형식)으로 표현되며, 종종 CoNLL 형식이라고 한다. 지식 추출 워크플로우의 경우, 이러한 데이터에 대한 RDF 보기가 다음 커뮤니티 표준에 따라 생성되었다.

기타 플랫폼별 형식에는 다음이 포함된다.

  • LAPPS 교환 형식(LIF, LAPPS Grid에서 사용)[6][7]
  • NLP 주석 형식(NAF, NewsReader 워크플로우 관리 시스템에서 사용)[8][9]

2. 3. 2. 전통적인 정보 추출 (IE)

전통적인 정보 추출자연어 처리 기술로, 보통 자연어 텍스트에서 정보를 추출하여 적절한 방식으로 구조화한다. 식별할 정보의 종류는 프로세스를 시작하기 전에 모델에 지정해야 한다. 이러한 이유로 전통적인 정보 추출의 전체 프로세스는 도메인 종속적이다. 정보 추출은 다음 다섯 가지 하위 작업으로 나뉜다.

  • 개체명 인식 (NER)
  • 공지시 해결 (CO)
  • 템플릿 요소 구성 (TE)
  • 템플릿 관계 구성 (TR)
  • 템플릿 시나리오 생성 (ST)


개체명 인식의 과제는 텍스트에 포함된 모든 개체명을 인식하고 분류하는 것이다(미리 정의된 범주에 개체명 할당). 이는 문법 기반 방법 또는 통계 모델을 적용하여 작동한다.

공지시 해결은 NER에서 인식된 텍스트 내의 동일한 개체를 식별한다. 관련성 있는 등가 관계에는 두 가지 종류가 있다. 첫 번째는 서로 다른 두 개의 표현된 개체(예: IBM 유럽 및 IBM) 간의 관계이고, 두 번째는 개체와 해당 지시적 참조 간의 관계이다(예: 그것과 IBM). 두 종류 모두 공지시 해결을 통해 인식할 수 있다.

템플릿 요소 구성 동안 정보 추출 시스템은 NER 및 CO에 의해 인식된 개체의 설명적 속성을 식별한다. 이러한 속성은 빨간색 또는 큰 것과 같은 일반적인 특성에 해당한다.

템플릿 관계 구성은 템플릿 요소 간에 존재하는 관계를 식별한다. 이러한 관계는 works-for 또는 located-in과 같은 여러 종류가 될 수 있으며, 도메인과 범위가 모두 개체에 해당한다는 제한이 있다.

템플릿 시나리오 생성에서는 텍스트에 설명된 이벤트가 NER 및 CO에 의해 인식된 개체 및 TR에 의해 식별된 관계와 관련하여 식별되고 구조화된다.

2. 3. 3. 온톨로지 기반 정보 추출 (OBIE)

온톨로지 기반 정보 추출()은 정보 추출의 하위 분야로, 자연어 텍스트에서 정보 추출 과정을 안내하기 위해 하나 이상의 온톨로지를 사용한다. OBIE 시스템은 기존 정보 추출 방법을 사용하여 텍스트에 사용된 온톨로지의 개념, 인스턴스 및 관계를 식별하며, 이들은 처리 후 온톨로지로 구조화된다. 따라서 입력 온톨로지는 추출될 정보의 모델을 구성한다.[10]

2. 3. 4. 온톨로지 학습 (OL)

온톨로지 학습은 온톨로지를 자동 또는 반자동으로 생성하는 것으로, 자연어 텍스트에서 해당 도메인의 용어를 추출하는 것을 포함한다.[1] 수동으로 온톨로지를 구축하는 것은 매우 노동 집약적이고 시간이 많이 소요되므로, 이 과정을 자동화하려는 동기가 크다.[1]

2. 3. 5. 의미 주석 (SA)

의미 주석(Semantic Annotation, SA)은 자연어 텍스트에 메타데이터를 추가하여 기계가 이해할 수 있는 형태로 만드는 기술이다. 이 과정은 일반적으로 반자동으로 진행되며, 텍스트의 어휘 용어와 온톨로지의 개념을 연결하여 텍스트의 의미를 기계가 추론할 수 있도록 돕는다.

의미 주석 처리는 일반적으로 다음과 같은 두 가지 하위 작업으로 나뉜다.

# 용어 추출

# 개체 연결

용어 추출 단계에서는 텍스트의 어휘 용어를 추출한다. 토크나이저를 사용하여 단어 경계를 결정하고 약어를 해결한 후, 도메인별 사전을 참고하여 개념에 해당하는 용어를 추출하고 개체 연결 단계에서 이들을 연결한다.

개체 연결 단계에서는 텍스트에서 추출된 용어와 DBpedia와 같은 온톨로지 또는 지식 베이스의 개념을 연결한다. 사전을 통해 용어의 여러 의미에 적합한 후보 개념을 찾고, 문맥 분석을 통해 가장 적절한 의미를 선택하여 용어를 올바른 개념에 할당한다.

예를 들어, "오바마 대통령은 ... 의회에 ... 요청했는데 ..." 라는 문장에서 '오바마 대통령'은 DBpedia의 버락 오바마 리소스에 연결될 수 있다. 이를 통해 의미론적 추론기는 오바마 대통령이 Person 유형이자 미국의 대통령 유형임을 추론할 수 있다.

DBpedia Spotlight, 오픈칼레이스, Dandelion dataTXT, 제만타 API(Zemanta API), Extractiv, PoolParty Extractor 등은 개체명 인식과 이름 확인을 통해 텍스트를 분석하고 발견된 개체를 DBpedia 지식 저장소에 연결하는 도구들이다.

하지만 지식 추출에서의 "의미 주석"은 자연어 처리에서의 의미 분석과는 다르다는 점에 유의해야 한다. 의미 분석은 자연어의 완전하고 기계 판독 가능한 표현을 목표로 하지만, 지식 추출에서의 의미 주석은 이의 매우 기본적인 측면만을 다룬다.

3. 지식 발견

지식 발견은 방대한 양의 데이터에서 해당 데이터에 관한 지식으로 간주될 수 있는 패턴을 자동으로 검색하는 과정이다. 이는 종종 입력 데이터로부터 지식을 도출하는 것으로 묘사된다. 지식 발견은 데이터 마이닝 분야에서 발전했으며, 방법론과 용어 면에서 모두 밀접하게 관련되어 있다.

데이터 마이닝의 가장 잘 알려진 분야는 데이터베이스 지식 발견(KDD)이다. 다른 여러 지식 발견과 마찬가지로 입력 데이터의 추상화를 생성한다. 이 과정을 통해 얻은 지식은 추가적인 데이터가 되어 더 많은 사용과 발견에 활용될 수 있다. 종종 지식 발견의 결과는 실행 가능하지 않으며, 도메인 주도 데이터 마이닝과 같은 기술은 실행 가능한 지식과 통찰력을 발견하고 제공하는 것을 목표로 한다.[11]

지식 발견의 또 다른 응용 분야는 기존 소프트웨어 아티팩트를 이해하는 소프트웨어 현대화, 취약점 발견 및 규정 준수 분야이다. 이 과정은 역공학 개념과 관련이 있다. 일반적으로 기존 소프트웨어에서 얻은 지식은 필요할 때 특정 쿼리를 수행할 수 있는 모델 형태로 제공된다. 개체 관계는 기존 소프트웨어에서 얻은 지식을 나타내는 일반적인 형식이다. 객체 관리 그룹(OMG)은 기존 코드에서 지식 발견을 수행할 목적으로 소프트웨어 자산 및 관련 관계에 대한 온톨로지를 정의하는 지식 발견 메타모델(KDM) 사양을 개발했다. 소프트웨어 마이닝이라고도 하는 기존 소프트웨어 시스템에서 지식 발견은 데이터 마이닝과 밀접하게 관련되어 있으며, 기존 소프트웨어 아티팩트는 위험 관리 및 비즈니스 가치를 위한 엄청난 가치를 포함하고 있어 소프트웨어 시스템의 평가 및 진화에 중요하다. 개별 데이터 세트를 마이닝하는 대신, 소프트웨어 마이닝은 프로세스 흐름 (데이터 흐름, 제어 흐름, 호출 맵 등), 아키텍처, 데이터베이스 스키마, 비즈니스 규칙, 용어, 프로세스와 같은 메타데이터에 중점을 둔다.

3. 1. 입력 데이터

지식 발견의 대상이 되는 데이터는 데이터베이스, 소프트웨어, 텍스트, 그래프, 시퀀스, 등 다양하다.

3. 2. 출력 형식

지식 발견의 결과는 다음과 같은 다양한 형태로 나타난다.

4. 지식 추출 도구

이름데이터 소스데이터 노출데이터 동기화매핑 언어어휘 재사용매핑 자동화요구 도메인 온톨로지GUI 사용 여부
관계형 데이터를 RDF로 직접 매핑하기관계형 데이터SPARQL/ETL동적#redirect거짓자동거짓거짓
CSV2RDF4LODCSVETL정적RDF수동거짓거짓
CoNLL-RDF | TSV, CoNLL | SPARQL/ RDF 스트림 | 정적 | 없음 | 참 | 자동 (언어 기술의 사용 사례에 특화, 행 간의 관계 유지) | 거짓 | 거짓
Convert2RDF | 구분된 텍스트 파일 | ETL | 정적 | RDF/DAML | 참 | 수동 | 거짓 | 참
D2R 서버 | RDB | SPARQL | 양방향 | D2R 맵 | 참 | 수동 | 거짓 | 거짓
DartGrid | RDB | 자체 쿼리 언어 | 동적 | 시각적 도구 | 참 | 수동 | 거짓 | 참
DataMaster | RDB | ETL | 정적 | 독점 | 참 | 수동 | 참 | 참
Google Refine의 RDF 확장 | CSV, XML | ETL | 정적 | | | 반자동 | 거짓 | 참
Krextor | XML | ETL | 정적 | xslt | 참 | 수동 | 참 | 거짓
MAPONTO | RDB | ETL | 정적 | 독점 | 참 | 수동 | 참 | 거짓
METAmorphoses | RDB | ETL | 정적 | 독점 XML 기반 매핑 언어 | 참 | 수동 | 거짓 | 참
MappingMaster | CSV | ETL | 정적 | MappingMaster | 참 | GUI | 거짓 | 참
ODEMapster | RDB | ETL | 정적 | 독점 | 참 | 수동 | 참 | 참
OntoWiki CSV 임포터 플러그인 - DataCube & 표 형식 | CSV | ETL | 정적 | RDF 데이터 큐브 어휘 | 참 | 반자동 | 거짓 | 참
Poolparty Extraktor (PPX) | XML, 텍스트 | LinkedData | 동적 | RDF (SKOS) | 참 | 반자동 | 참 | 거짓
RDBToOnto | RDB | ETL | 정적 | | 거짓 | 자동, 사용자는 추가로 결과를 미세 조정할 수 있는 기회를 가짐 | 거짓 | 참
RDF 123 | CSV | ETL | 정적 | 거짓 | 거짓 | 수동 | 거짓 | 참
RDOTE | RDB | ETL | 정적 | SQL | 참 | 수동 | 참 | 참
Relational.OWL | RDB | ETL | 정적 | | 거짓 | 자동 | 거짓 | 거짓
T2LD | CSV | ETL | 정적 | 거짓 | 거짓 | 자동 | 거짓 | 거짓
RDF 데이터 큐브 어휘 | 스프레드시트의 다차원 통계 데이터 | | | 데이터 큐브 어휘 | 참 | 수동 | 거짓 |
TopBraid Composer | CSV | ETL | 정적 | SKOS | 거짓 | 반자동 | 거짓 | 참
Triplify | RDB | LinkedData | 동적 | SQL | 참 | 수동 | 거짓 | 거짓
Ultrawrap | RDB | SPARQL/ETL | 동적 | R2RML | 참 | 반자동 | 거짓 | 참
Virtuoso RDF 뷰 | RDB | SPARQL | 동적 | 메타 스키마 언어 | 참 | 반자동 | 거짓 | 참
Virtuoso Sponger | 구조적 및 반구조적 데이터 소스 | SPARQL | 동적 | Virtuoso PL & XSLT | 참 | 반자동 | 거짓 | 거짓
VisAVis | RDB | RDQL | 동적 | SQL | 참 | 수동 | 참 | 참
XLWrap: Spreadsheet to RDF | CSV | ETL | 정적 | TriG 구문 | 참 | 수동 | 거짓 | 거짓
XML을 RDF로 | XML | ETL | 정적 | 거짓 | 거짓 | 자동 | 거짓 | 거짓



다음은 자연어 텍스트에서 지식을 추출하는 도구를 분류하는 데 사용할 수 있는 기준이다.

기준설명
소스도구가 처리할 수 있는 입력 형식 (예: 일반 텍스트, HTML 또는 PDF)
액세스 패러다임도구가 데이터 소스를 쿼리할 수 있는지 또는 추출 프로세스를 위해 전체 덤프가 필요한지 여부
데이터 동기화추출 프로세스의 결과가 소스와 동기화되는지 여부
사용 출력 온톨로지도구가 결과를 온톨로지와 연결하는지 여부
매핑 자동화추출 프로세스의 자동화 정도 (수동, 반자동 또는 자동)
온톨로지 필요도구가 추출을 위해 온톨로지가 필요한지 여부
GUI 사용도구가 그래픽 사용자 인터페이스를 제공하는지 여부
접근 방식도구가 사용하는 접근 방식 (IE, OBIE, OL 또는 SA)
추출된 엔티티도구가 추출할 수 있는 엔티티 유형 (예: 명명된 엔티티, 개념 또는 관계)
적용된 기술적용된 기술 (예: NLP, 통계적 방법, 클러스터링 또는 기계 학습)
출력 모델도구의 결과를 표현하는 데 사용되는 모델 (예: RDF 또는 OWL)
지원되는 도메인지원되는 도메인 (예: 경제 또는 생물학)
지원되는 언어처리할 수 있는 언어 (예: 영어 또는 독일어)



다음은 자연어 소스에서 지식 추출을 위한 일부 도구들의 특징을 나타낸 표이다.

이름소스액세스 패러다임데이터 동기화사용 출력 온톨로지매핑 자동화온톨로지 필요GUI 사용접근 방식추출된 엔티티적용된 기술출력 모델지원되는 도메인지원되는 언어
Rocket Software 일반 텍스트, HTML, XML, SGML덤프아니요자동IE명명된 엔티티, 관계, 이벤트언어 규칙독점도메인 독립적영어, 스페인어, 아랍어, 중국어, 인도네시아어
AlchemyAPI 일반 텍스트, HTML자동SA다국어
ANNIE 일반 텍스트덤프IE유한 상태 알고리즘다국어
ASIUM 일반 텍스트덤프반자동OL개념, 개념 계층NLP, 클러스터링
Attensity Exhaustive Extraction 자동IE명명된 엔티티, 관계, 이벤트NLP
Dandelion API일반 텍스트, HTML, URLREST아니요아니요자동아니요SA명명된 엔티티, 개념통계적 방법JSON도메인 독립적다국어
DBpedia Spotlight 일반 텍스트, HTML덤프, SPARQL자동아니요SA각 단어에 대한 주석, 비정지 단어에 대한 주석NLP, 통계적 방법, 기계 학습RDFa도메인 독립적영어
EntityClassifier.eu일반 텍스트, HTML덤프자동아니요IE, OL, SA각 단어에 대한 주석, 비정지 단어에 대한 주석규칙 기반 문법XML도메인 독립적영어, 독일어, 네덜란드어
FRED 일반 텍스트덤프, REST API자동아니요IE, OL, SA, 온톨로지 설계 패턴, 프레임 의미론(다중)단어 NIF 또는 EarMark 주석, 술어, 인스턴스, 구성 의미론, 개념 분류법, 프레임, 의미 역할, 구문 관계, 이벤트, 양상, 시제, 엔티티 연결, 이벤트 연결, 감성NLP, 기계 학습, 휴리스틱 규칙RDF/OWL도메인 독립적영어, 번역을 통한 다른 언어
iDocument HTML, PDF, DOCSPARQLOBIE인스턴스, 속성 값NLP개인, 비즈니스
NetOwl Extractor 일반 텍스트, HTML, XML, SGML, PDF, MS Office덤프아니요자동IE명명된 엔티티, 관계, 이벤트NLPXML, JSON, RDF-OWL, 기타여러 도메인영어, 아랍어, 중국어(간체 및 번체), 프랑스어, 한국어, 페르시아어(파르시 및 다리), 러시아어, 스페인어
OntoGen 반자동OL개념, 개념 계층, 비 분류적 관계, 인스턴스NLP, 기계 학습, 클러스터링
OntoLearn 일반 텍스트, HTML덤프아니요자동아니요OL개념, 개념 계층, 인스턴스NLP, 통계적 방법독점도메인 독립적영어
OntoLearn Reloaded일반 텍스트, HTML덤프아니요자동아니요OL개념, 개념 계층, 인스턴스NLP, 통계적 방법독점도메인 독립적영어
OntoSyphon HTML, PDF, DOC덤프, 검색 엔진 쿼리아니요자동아니요OBIE개념, 관계, 인스턴스NLP, 통계적 방법RDF도메인 독립적영어
ontoX 일반 텍스트덤프아니요반자동아니요OBIE인스턴스, 데이터 유형 속성 값휴리스틱 기반 방법독점도메인 독립적언어 독립적
OpenCalais일반 텍스트, HTML, XML덤프아니요자동아니요SA엔티티에 대한 주석, 이벤트에 대한 주석, 사실에 대한 주석NLP, 기계 학습RDF도메인 독립적영어, 프랑스어, 스페인어
PoolParty Extractor 일반 텍스트, HTML, DOC, ODT덤프아니요자동OBIE명명된 엔티티, 개념, 관계, 텍스트를 분류하는 개념, 풍부함NLP, 기계 학습, 통계적 방법RDF, OWL도메인 독립적영어, 독일어, 스페인어, 프랑스어
Rosoka일반 텍스트, HTML, XML, SGML, PDF, MS Office덤프자동아니요IE명명된 엔티티 추출, 엔티티 해결, 관계 추출, 속성, 개념, 다중 벡터 감성 분석, 지오태깅, 언어 식별NLP, 기계 학습XML, JSON, POJO, RDF여러 도메인다국어 200개 이상의 언어
SCOOBIE일반 텍스트, HTML덤프아니요자동아니요아니요OBIE인스턴스, 속성 값, RDFS 유형NLP, 기계 학습RDF, RDFa도메인 독립적영어, 독일어
SemTag HTML덤프아니요자동아니요SA기계 학습데이터베이스 레코드도메인 독립적언어 독립적
smart FIX일반 텍스트, HTML, PDF, DOC, e-Mail덤프아니요자동아니요OBIE명명된 엔티티NLP, 기계 학습독점도메인 독립적영어, 독일어, 프랑스어, 네덜란드어, 폴란드어
Text2Onto 일반 텍스트, HTML, PDF덤프아니요반자동OL개념, 개념 계층, 비 분류적 관계, 인스턴스, 공리NLP, 통계적 방법, 기계 학습, 규칙 기반 방법OWL도메인 독립적영어, 독일어, 스페인어
Text-To-Onto 일반 텍스트, HTML, PDF, PostScript덤프반자동OL개념, 개념 계층, 비 분류적 관계, 개념을 참조하는 어휘 엔티티, 관계를 참조하는 어휘 엔티티NLP, 기계 학습, 클러스터링, 통계적 방법독일어
ThatNeedle일반 텍스트덤프자동아니요개념, 관계, 계층NLP, 독점JSON여러 도메인영어
The Wiki Machine 일반 텍스트, HTML, PDF, DOC덤프아니요자동SA고유 명사에 대한 주석, 일반 명사에 대한 주석기계 학습RDFa도메인 독립적영어, 독일어, 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 러시아어
ThingFinder IE명명된 엔티티, 관계, 이벤트다국어


5. 한국의 지식 추출 현황

한국은 지식 추출 기술 개발과 활용에 적극적으로 참여하고 있으며, 정부 주도의 연구 개발 사업과 민간 기업의 기술 혁신이 활발하게 이루어지고 있다. 특히, 과학기술정보통신부는 인공지능 국가전략의 일환으로 지식 추출 기술 개발을 지원하고 있으며, 한국전자통신연구원(ETRI) 등 주요 연구기관에서 관련 연구를 수행하고 있다.

참조

[1] 웹사이트 NLP Interchange Format (NIF) 2.0 - Overview and Documentation https://persistence.[...] 2020-06-05
[2] 서적 The Semantic Web – ISWC 2013 Springer 2013
[3] 논문 Towards Adaptation of Linguistic Annotations to Scholarly Annotation Formalisms on the Semantic Web https://www.aclweb.o[...] Association for Computational Linguistics 2012-07
[4] 간행물 acoli-repo/conll-rdf https://github.com/a[...] ACoLi 2020-06-05
[5] 서적 Language, Data, and Knowledge Springer International Publishing 2017
[6] 서적 Worldwide Language Service Infrastructure Springer International Publishing 2016
[7] 웹사이트 The Language Application Grid {{!}} A web service platform for natural language processing development and research http://www.lappsgrid[...] 2020-06-05
[8] 간행물 newsreader/NAF https://github.com/n[...] NewsReader 2020-06-05
[9] 논문 NewsReader: Using knowledge resources in a cross-lingual reading machine to generate more knowledge from massive streams of news 2016-10-15
[10] 논문 Ontology-based prediction and prioritization of gene functional annotations https://doi.org/10.1[...]
[11] 논문 Domain driven data mining: challenges and prospects
[12] 문서 XML



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com