개체명 인식
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
개체명 인식(NER)은 텍스트에서 이름이 지정된 개체, 즉 단어 또는 구를 식별하는 작업이다. 이는 사람, 조직, 위치, 날짜, 시간, 금액, 비율 등 다양한 유형의 개체를 포함하며, 고정 지시어와 관련이 있지만 더 광범위한 범위를 다룬다. NER은 이름 감지 및 개체 유형 분류의 두 단계로 나뉘며, 언어학적 규칙과 기계 학습 모델을 모두 사용한다. NER은 텍스트의 고유 표현을 자동으로 추출하여 사전 등록의 어려움을 해결하는 데 기여하며, MUC와 같은 평가 프로젝트를 통해 발전해 왔다. NER 시스템은 정밀도와 재현율, F1 점수 등으로 평가되며, 반지도 학습과 같은 기술을 활용하여 성능 향상을 추구하고 있다.
더 읽어볼만한 페이지
- 전산언어학 - 알고리즘
알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다. - 전산언어학 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
개체명 인식 | |
---|---|
개요 | |
정의 | 개체명 인식은 텍스트에서 명명된 개체를 식별하고 분류하는 자연어 처리 기술이다. |
다른 이름 | 명명된 엔터티 인식 개체명 식별 개체명 분할 개체명 추출 |
특징 | |
목표 | 텍스트에서 식별된 단어 또는 구문을 미리 정의된 범주(예: 사람, 조직, 위치, 시간 표현, 수량, 통화 가치, 백분율 등)로 분류한다. |
핵심 작업 | 엔터티 감지: 텍스트에서 관련된 엔터티 언급을 식별한다. 엔터티 분류: 식별된 엔터티를 미리 정의된 범주로 분류한다. |
세부 작업 | 명명된 엔터티 감지 (Named Entity Detection, NED) 명명된 엔터티 인식 (Named Entity Recognition, NER) 명명된 엔터티 분류 (Named Entity Classification, NEC) 명명된 엔터티 연결 (Named Entity Linking, NEL) 또는 엔터티 일의성 해소 (Entity Disambiguation) |
접근 방식 | |
규칙 기반 접근 방식 | 언어적 규칙, 패턴, 사전 및 문법을 활용하여 명명된 엔터티를 식별하고 분류한다. |
기계 학습 기반 접근 방식 | 지도 학습: 레이블이 지정된 데이터에서 훈련된 모델을 사용하여 엔터티를 예측한다. 비지도 학습: 레이블이 지정되지 않은 데이터에서 패턴을 학습하여 엔터티를 식별한다. 준지도 학습: 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용하여 모델을 훈련한다. |
딥 러닝 기반 접근 방식 | 심층 신경망 아키텍처를 사용하여 텍스트에서 엔터티를 학습하고 인식한다. |
기술 | |
사용 모델 | 순환 신경망 (Recurrent Neural Networks, RNN) 장단기 기억 (Long Short-Term Memory, LSTM) 네트워크 변환기 (Transformer) 모델 (예: BERT, RoBERTa) 조건부 랜덤 필드 (Conditional Random Fields, CRF) |
기타 기술 | 단어 임베딩 (Word Embeddings) 문자 수준 임베딩 (Character-Level Embeddings) 주의 메커니즘 (Attention Mechanisms) |
과제 | |
모호성 | 단어가 문맥에 따라 여러 의미를 가질 수 있으므로 엔터티를 정확하게 식별하는 데 어려움이 있다. |
희귀 엔터티 | 훈련 데이터에 거의 나타나지 않는 엔터티는 정확하게 인식하기 어렵다. |
언어적 변화 | 새로운 단어, 구문 및 표현 방식의 등장으로 인해 모델의 일반화 성능이 저하될 수 있다. |
코드 전환 | 여러 언어가 혼합된 텍스트에서 엔터티를 식별하는 것은 특히 어렵다. |
적용 분야 | |
정보 검색 | 검색 결과의 정확성과 관련성을 향상시킨다. |
기계 번역 | 번역된 텍스트에서 엔터티를 정확하게 식별하고 유지한다. |
질문 응답 시스템 | 질문에 대한 답변을 추출하고 제공한다. |
텍스트 요약 | 중요한 엔터티를 식별하고 요약에 포함시킨다. |
고객 지원 | 고객 문의를 분석하고 관련된 정보를 추출한다. |
콘텐츠 추천 | 사용자 관심사를 기반으로 콘텐츠를 추천한다. |
금융 | 뉴스 기사, 보고서 및 소셜 미디어 게시물에서 금융 엔터티를 식별한다. |
의료 | 임상 기록, 연구 논문 및 환자 보고서에서 의료 엔터티를 식별한다. |
2. 정의
개체명 인식에서 "개체명(Named Entity)"이라는 용어는 하나 이상의 문자열(단어 또는 구문)이 일관적으로 사용되는 개체를 지칭한다. 이는 사울 크립키가 정의한 고정 지시어와 관련이 있지만,[5][6] 실제로는 철학적으로 "고정"되지 않은 많은 이름과 지시어를 다룬다. 예를 들어, ''1903년 헨리 포드가 설립한 자동차 회사''는 "Ford" 또는 "Ford Motor Company"로 지칭될 수 있지만, "Ford"는 다른 많은 개체를 지칭할 수도 있다 (Ford 참조). 고정 지시어는 고유 명사뿐만 아니라 특정 생물 종 및 물질에 대한 용어를 포함하지만,[7] 대명사("it" 등; 공지시 해결 참조), 속성으로 지시어를 선택하는 설명 (De dicto and de re 참조) 및 개인이 아닌 종류의 이름(예: "은행")은 제외한다.
'''고유 표현'''이라는 개념과 '''고유 표현 추출'''이 제창된 것은 1990년경 미국의 DARPA가 조직한 평가형 프로젝트 MUC(Message Understanding Conference)에서라고 여겨진다.
고유 표현에는 인명, 날짜 표현 등 몇 가지 분류가 있으며, 이러한 분류를 정의해야 한다.
개체명 인식(NER) 시스템은 언어학적 형식 문법 기반 기술과 기계 학습과 같은 통계 모델을 사용하여 만들어졌다. 수작업으로 만들어진 문법 기반 시스템은 일반적으로 더 나은 정밀도를 얻지만, 더 낮은 재현율과 숙련된 전산언어학자들의 수개월에 걸친 노력이 필요하다.[15] 통계적 NER 시스템은 일반적으로 많은 양의 수동으로 주석 처리된 훈련 데이터를 필요로 한다. 반지도 학습 접근 방식은 주석 노력의 일부를 피하기 위해 제안되었다.[16]
개체명 인식은 이름 감지 및 이름이 지칭하는 개체 유형(예: 사람, 조직 또는 위치)별 분류의 두 가지 문제로 나뉜다.[9] 첫 번째 단계는 세분화 문제로, 이름은 중첩 없이 토큰의 연속적인 범위로 정의된다. 예를 들어 "Bank of America"는 "America"가 이름이라는 사실을 무시하고 단일 이름으로 간주한다. 이 문제는 청킹과 유사하다. 두 번째 단계에서는 사물의 범주를 구성하기 위한 온톨로지를 선택해야 한다.
시간 표현과 일부 숫자 표현(예: 돈, 백분율 등)도 개체명으로 간주될 수 있다. ''2001년''은 ''그레고리력 2001년''을 지칭하지만, ''6월''은 정의되지 않은 해의 달을 지칭할 수 있다. 이러한 경우 "개체명"의 정의가 실용적인 이유로 완화되었다고 할 수 있으며, 사용되는 맥락에서 설명해야 한다.[10]
개체명 유형의 계층에는 BBN 범주(29개 유형, 64개 하위 유형),[11] Sekine의 확장된 계층(200개 하위 유형),[12] 소셜 미디어 텍스트에 대한 NER 실험에서 사용된 Freebase 개체 유형 기반 계층 등이 있다.[13]
현실 세계의 텍스트에는 대량의 고유 표현(Named Entity)이 포함되어 있다. 형태소 분석 등을 수행할 때, 이러한 고유 표현이 사전에 없으면 미등록어로 취급되어 오류를 일으킨다. 따라서 고유 표현을 사전에 등록해야 하지만, 사람이 일일이 등록하기는 어렵다. 이 문제를 해결하기 위해 컴퓨터로 대량의 텍스트에서 고유 표현을 자동 추출하는 기술이 개발되었다.
3. 역사
일본 국내에서는 정보 추출·정보 검색의 평가형 워크숍인 IREX(Information Retrieval and Extraction Exercise)에서의 정보 추출의 공유 과제 중 하나로 출제되었다.
4. 고유 표현 분류
MUC에서는 조직명(ORGANIZATION), 인명(PERSON), 지명(LOCATION), 날짜 표현(DATE), 시간 표현(TIME), 금액 표현(MONEY), 비율 표현(PERCENT)의 7가지 종류를 정의했다. IREX에서는 MUC의 분류에 고유 물체명(ARTIFACT)을 더한 총 8가지 분류를 채택했다.
이러한 분류에는 범위에 대한 모호성 등의 문제가 있다. 뉴욕 대학교의 세키네 사토시 등은 MUC·IREX의 고유 표현 분류를 바탕으로 확장 고유 표현 계층(Extended Named Entity Hierarchy)을 제안했다. 이는 다른 분류와 달리 계층 구조를 가지며, 다양한 세분성으로 분류하는 것을 가능하게 한다.
5. 접근 방식
다양한 분류기 유형이 기계 학습 NER을 수행하는 데 사용되었으며, 조건부 무작위장이 일반적인 선택이다.[17]
이 절의 加筆이 필요합니다.
5. 1. 규칙 기반 방식
규칙 기반 방식의 개체명 인식(NER) 시스템은 언어학적 형식 문법 기반 기술과 기계 학습과 같은 통계 모델을 사용하여 만들어졌다.[15] 수작업으로 제작된 문법 기반 시스템은 더 나은 정밀도를 보이지만, 재현율이 낮고 숙련된 전산언어학자들의 수개월에 걸친 노력이 필요하다는 단점이 있다.[15] 통계적 NER 시스템은 일반적으로 많은 양의 수동 주석 처리된 훈련 데이터를 필요로 한다.[16] 반지도 학습은 주석 작업의 부담을 줄이기 위해 제안되었다.[16]
기계 학습 기반 NER에서는 다양한 분류기가 사용되었으며, 조건부 무작위장이 일반적으로 선택된다.[17]
5. 2. 기계 학습 기반 방식
기계 학습과 같은 통계 모델을 활용한 개체명 인식(NER) 시스템은 언어학적 형식 문법 기반 기술을 사용하여 만들어졌다. 수작업으로 제작된 문법 기반 시스템은 높은 정밀도를 보이지만, 낮은 재현율과 전산언어학 전문가의 상당한 노력이 필요하다는 단점이 있다.[15] 반면, 통계적 NER 시스템은 대량의 수동 주석 처리된 훈련 데이터가 필요하다.[15] 반지도 학습은 주석 작업의 부담을 줄이기 위한 대안으로 제시되었다.[16]
기계 학습 NER에는 다양한 분류기가 사용되며, 조건부 무작위장이 일반적으로 선택된다.[17]
5. 3. 준지도 학습
개체명 인식 문제 해결은 MUC-7 데이터 세트에서 높은 F1 점수가 보고되었음에도 불구하고 아직 갈 길이 멀다.[20][21] 주요 노력은 반지도 학습을 활용하여 주석 작업을 줄이고, 도메인 간의 강력한 성능을 확보하며, 세분화된 엔티티 유형으로 확장하는 데 집중하고 있다.[22][23][12][24]
일부 연구자들은 HMM (은닉 마르코프 모델), ME (최대 엔트로피), CRF (조건부 무작위 필드)와 같은 다양한 통계 모델 및 특징 집합의 NER 성능을 비교했다.[27] 최근에는 언어별 NER 작업에 대한 그래프 기반 준지도 학습 모델도 제안되었다.[28]
최근 등장하는 과제는 텍스트에서 "중요한 표현"을 식별하고 위키백과와 상호 연결하는 것이다.[29][30][31] 트위터 및 기타 마이크로블로그에 NER을 적용하는 것 또한 어려운 분야로, 비표준 철자법, 텍스트의 짧음 및 비격식성 때문에 "노이즈"로 간주된다.[32][33]
6. 평가
NER 시스템의 출력 품질을 평가하기 위해 정밀도와 재현율, F1 점수와 같은 척도들이 정의되었다. 그러나 이러한 값을 계산하는 방식에는 몇 가지 문제가 있다.
이러한 통계적 척도는 실제 개체를 정확하게 찾거나 놓치는 경우, 그리고 개체가 아닌 것을 찾는 명백한 경우에는 비교적 잘 작동한다. 그러나 NER은 다른 여러 방식으로 실패할 수 있으며, 그 중 다수는 "부분적으로 정확"하다고 주장할 수 있으며, 완전한 성공 또는 실패로 간주되어서는 안 된다. 예를 들어, 실제 개체를 식별하지만 다음과 같은 경우가 있다.
- 원하는 것보다 적은 토큰을 사용하는 경우 (예: "John Smith, M.D."의 마지막 토큰 누락)
- 원하는 것보다 많은 토큰을 사용하는 경우 (예: "The University of MD"의 첫 번째 단어 포함)
- 인접한 개체를 다르게 분할하는 경우 (예: "Smith, Jones Robinson"을 2개 대 3개 개체로 처리)
- 완전히 잘못된 유형을 할당하는 경우 (예: 개인 이름을 조직이라고 부르는 경우)
- 관련되지만 정확하지 않은 유형을 할당하는 경우 (예: "물질" 대 "약물" 또는 "학교" 대 "조직")
- 사용자가 원하는 것이 더 작거나 더 큰 범위의 개체인 경우 개체를 올바르게 식별하는 경우 (예: "James Madison University"의 일부인 "James Madison"을 개인 이름으로 식별하는 경우).
일부 NER 시스템은 개체가 겹치거나 중첩될 수 없다는 제약을 부과하므로, 경우에 따라 임의 또는 작업별 선택을 해야 한다.
정확성을 측정하는 지나치게 단순한 방법 중 하나는 텍스트의 모든 토큰 중 개체 참조의 일부로 (또는 올바른 유형의 개체로) 올바르게 또는 잘못 식별된 토큰의 분수를 단순히 계산하는 것이다. 이 방법에는 적어도 두 가지 문제가 있다. 첫째, 실제 텍스트의 대다수의 토큰은 개체 이름의 일부가 아니므로 기준 정확도(항상 "개체가 아님"을 예측)가 과도하게 높으며, 일반적으로 90% 이상이다. 둘째, 개체 이름의 전체 범위를 잘못 예측하는 것은 제대로 처벌되지 않는다 (성이 뒤따르는 경우 이름만 찾는 것은 1/2 정확도로 점수가 매겨질 수 있음).
CoNLL과 같은 학술 회의에서는 F1 점수의 변형이 다음과 같이 정의되었다.
- 정밀도는 골드 표준 평가 데이터의 범위와 ''정확히'' 일치하는 예측된 개체 이름 범위의 수이다. 즉, [사람 Hans] [사람 Blick]이 예측되었지만 [사람 Hans Blick]이 필요한 경우, 예측된 이름의 정밀도는 0이다. 그런 다음 정밀도는 예측된 모든 개체 이름에 대해 평균을 낸다.
- 재현율은 유사하게 예측에서 정확히 동일한 위치에 나타나는 골드 표준의 이름 수이다.
- F1 점수는 이 두 가지의 조화 평균이다.
위의 정의에 따라 단일 토큰을 누락하거나, 가짜 토큰을 포함하거나, 잘못된 클래스가 있는 모든 예측은 심각한 오류이며, 정밀도나 재현율에 긍정적으로 기여하지 않는다. 따라서 이 척도는 비관적이라고 할 수 있다. 많은 "오류"가 거의 정확하고 주어진 목적에 적합할 수 있다. 예를 들어, 한 시스템은 "Ms." 또는 "Ph.D."와 같은 제목을 항상 생략하지만, 제목을 포함할 것으로 예상하는 시스템 또는 골드 표준 데이터와 비교할 수 있다. 이 경우, 모든 이름이 오류로 처리된다. 이러한 문제로 인해 오류의 종류를 실제로 검토하고, 목표와 요구 사항을 고려하여 오류가 얼마나 중요한지 결정하는 것이 중요하다.
토큰 대 토큰 매칭을 기반으로 하는 평가 모델이 제안되었다. 이러한 모델은 겹치는 일치 항목에 대한 부분 점수를 부여할 수 있다 (교집합과 합집합 기준을 사용). 이를 통해 추출 시스템을 보다 세분화된 방식으로 평가하고 비교할 수 있다.
7. 문제 영역 및 과제
2001년 연구에 따르면 최첨단 개체명 인식(NER) 시스템조차도 취약하여, 한 도메인에 맞춰 개발된 NER 시스템이 다른 도메인에서는 일반적으로 성능이 좋지 않았다.[18] 새로운 도메인에서 NER 시스템의 성능을 개선하기 위해서는 상당한 노력이 필요하며, 이는 규칙 기반 시스템과 훈련 가능한 통계적 시스템 모두에 해당된다.
1990년대 초 NER 시스템 연구는 주로 저널 기사에서 정보를 추출하는 데 초점을 맞추었다. 이후에는 군사 통신문 및 보고서 처리에 대한 관심이 높아졌다. 후기 자동 내용 추출(ACE) 평가에서는 웹로그 및 대화형 전화 음성 대화의 텍스트 전사와 같은 여러 유형의 비공식 텍스트 스타일도 포함되었다. 1998년경부터 분자 생물학, 생물 정보학, 의학 자연어 처리 분야에서 개체 식별에 대한 관심이 높아졌다. 해당 분야에서 가장 흔한 관심 대상 개체는 유전자 및 유전자 산물의 이름이었다. 또한 CHEMDNER 대회를 통해 화학 물질과 약물의 인지도에 대한 상당한 관심이 있었으며, 이 과제에 27개 팀이 참여했다.[19]
개체명 인식 문제 해결은 MUC-7 데이터 세트에서 높은 F1 점수가 보고되었음에도 불구하고 아직 갈 길이 멀다. 주요 노력은 반지도 학습을 활용하여 주석 작업을 줄이고,[20][21] 도메인 간의 강력한 성능을 확보하며,[22][23] 세분화된 엔티티 유형으로 확장하는 데 집중하고 있다.[12][24] 최근 몇 년 동안 많은 프로젝트들이 크라우드소싱으로 전환했는데, 이는 NER에 대한 지도 학습 및 반지도 기계 학습 접근 방식에 대한 고품질의 집합적인 인간 판단을 얻기 위한 유망한 해결책이다.[25] 또 다른 어려운 과제는 트위터 및 검색 쿼리와 같은 언어적으로 복잡한 컨텍스트를 처리하는 모델을 고안하는 것이다.[26]
일부 연구자들은 HMM (은닉 마르코프 모델), ME (최대 엔트로피), CRF (조건부 무작위 필드)와 같은 다양한 통계 모델 및 특징 집합의 NER 성능을 비교했다.[27] 그리고 최근 일부 연구자들은 언어별 NER 작업에 대한 그래프 기반 반지도 학습 모델을 제안했다.[28]
최근 등장하는 과제는 텍스트에서 "중요한 표현"을 식별하고 위키백과와 상호 연결하는 것이다.[29][30][31]
진전을 보였지만 여전히 어려운 또 다른 분야는 트위터 및 기타 마이크로블로그에 NER을 적용하는 것으로, 비표준 철자법, 텍스트의 짧음 및 비격식성 때문에 "노이즈"로 간주된다.[32][33] 영어 트윗에서의 NER 과제는 양방향 LSTM, 학습-검색, CRF 등 다양한 접근 방식의 성능을 비교하기 위해 연구 커뮤니티에서 조직되었다.[34][35][36]
8. 한국어 고유 표현 인식 시스템
8. 1. 상용 시스템
goo 랩에서 제공하는 고유 표현 추출 API는 NTT 레조난트에서 개발한 API이다.8. 2. 오픈 소스
개체명 인식을 지원하는 주요 오픈 소스 소프트웨어는 다음과 같다.- Apache OpenNLP는 2018년 7월 릴리스에서 일본어를 지원한다. 상업적 이용이 가능하다.
- spaCy/GiNZA는 MIT 라이선스로 제공된다.
- CaboCha는 LGPL/BSD 라이선스로 제공된다. 부속 훈련된 모델은 마이니치 신문 데이터 사용 허가를 받아 연구 목적으로만 사용할 수 있다.
9. 플랫폼
GATE는 여러 언어와 도메인에서 즉시 사용 가능한 개체명 인식(NER)을 지원하며, 그래픽 인터페이스 및 자바 API를 통해 사용할 수 있다. OpenNLP는 규칙 기반 및 통계적 개체명 인식을 포함한다. SpaCy는 빠르고 통계적인 NER과 오픈 소스 개체명 시각화 도구를 제공한다. 트랜스포머는 딥 러닝 모델을 사용하여 토큰 분류 기능을 제공한다.[3][4]
참조
[1]
간행물
"MUC-7 Evaluation of IE Technology: Overview of Results"
http://www-nlpir.nis[...]
1998-04-29
[2]
웹사이트
MUC-07 Proceedings (Named Entity Tasks)
http://www-nlpir.nis[...]
[3]
학회
Transformers: State-of-the-art natural language processing
2020
[4]
논문
Precision information extraction for rare disease epidemiology at scale
2023
[5]
서적
Identity and Individuation
New York: New York University Press
1971
[6]
백과사전
Rigid Designators
https://plato.stanfo[...]
[7]
학회
A survey of named entity recognition and classification
http://nlp.cs.nyu.ed[...]
[8]
학회
A simple named entity extractor using AdaBoost
https://www.aclweb.o[...]
[9]
학회
Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition
http://www.aclweb.or[...]
[10]
웹사이트
Named Entity Definition
http://webknox.com/p[...]
2013-07-21
[11]
웹사이트
Annotation Guidelines for Answer Types
https://catalog.ldc.[...]
Linguistic Data Consortium
2013-07-21
[12]
웹사이트
Sekine's Extended Named Entity Hierarchy
http://nlp.cs.nyu.ed[...]
2013-07-21
[13]
학회
Named Entity Recognition in Tweets: An Experimental Study
https://aclweb.org/a[...]
2011
[14]
학회
Evaluating Information Extraction
http://nmis.isti.cnr[...]
[15]
웹사이트
Natural Language Processing: Semantic Aspects
https://books.google[...]
CRC Press
2013-11-14
[16]
논문
Learning multilingual named entity recognition from Wikipedia
[17]
학회
Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling
http://nlp.stanford.[...]
[18]
논문
Proper Name Extraction from Non-Journalistic Texts
https://pdfs.semanti[...]
[19]
서적
Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol. 2
[20]
학회
Phrase clustering for discriminative learning
http://www.aclweb.or[...]
[21]
간행물
Word representations: a simple and general method for semi-supervised learning
http://cogcomp.cs.il[...]
2010-07
[22]
간행물
Design challenges and misconceptions in named entity recognition.
http://cogcomp.cs.il[...]
2009-06
[23]
웹사이트
Frustratingly Easy Domain Adaptation.
http://www.cs.utah.e[...]
2012-04-05
[24]
서적
Information Retrieval Technology
[25]
웹사이트
Web 2.0-based crowdsourcing for high-quality gold standard development in clinical Natural Language Processing
http://www.jmir.org/[...]
[26]
학회
A Two-Step Named Entity Recognizer for Open-Domain Search Queries
https://www.research[...]
[27]
간행물
Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics
https://link.springe[...]
2013
[28]
간행물
Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model
http://www.aclweb.or[...]
2015
[29]
웹사이트
Linking Documents to Encyclopedic Knowledge
http://dl.acm.org/ci[...]
[30]
웹사이트
Learning to link with Wikipedia.
http://www.cs.waikat[...]
2014-07-21
[31]
웹사이트
Local and Global Algorithms for Disambiguation to Wikipedia
http://cogcomp.cs.il[...]
[32]
간행물
Analysis of named entity recognition and linking for tweets
2014
[33]
논문
Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition
https://aclanthology[...]
Association for Computational Linguistics
2015-07
[34]
웹사이트
COLING 2016 Workshop on Noisy User-generated Text (W-NUT)
https://noisy-text.g[...]
2022-08-13
[35]
논문
Learning to Search for Recognizing Named Entities in Twitter
https://aclanthology[...]
The COLING 2016 Organizing Committee
2016-12
[36]
논문
Bidirectional LSTM for Named Entity Recognition in Twitter Messages
https://aclanthology[...]
The COLING 2016 Organizing Committee
2016-12
[37]
간행물
MUC-7 Evaluation of IE Technology: Overview of Results
http://www-nlpir.nis[...]
1998-04-29
[38]
웹사이트
MUC-07 Proceedings (Named Entity Tasks)
http://www-nlpir.nis[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com