자연어 처리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 기반 기술
4. 주요 과제
5. 응용 분야
참조

1. 개요

자연어 처리는 컴퓨터가 인간의 언어를 이해하고 처리하도록 하는 인공지능 분야이다. 1950년대부터 시작된 자연어 처리 연구는 존 설의 중국어 방 실험을 통해 심볼릭 자연어 처리의 가능성을 제시했다. 이후 기계 번역, 챗봇 개발 등이 이루어졌으며, 1990년대에는 통계적 기법이 도입되어 기계 학습 기반의 자연어 처리 기술이 발전했다. 2010년대 이후에는 딥러닝 기술이 활용되어 언어 모델링, 구문 분석 등에서 괄목할 만한 성과를 거두었다. 자연어 처리는 기호 기반, 통계 기반, 신경망 기반의 다양한 기술을 활용하며, 음성 인식, 기계 번역, 질의응답 시스템, 자동 요약 등 다양한 분야에 응용되고 있다. 주요 과제로는 다의어 처리, 구문 분석의 모호성, 불완전한 입력 처리 등이 있다.

더 읽어볼만한 페이지

음성 인식 - 윈도우 음성 인식
윈도우 음성 인식은 윈도우 운영체제에 내장된 기능으로, 사용자가 음성 명령으로 컴퓨터를 제어하고 텍스트를 받아쓰는 데 사용되며, 윈도우 비스타부터 도입되어 다양한 언어를 지원하고 로컬 처리 방식으로 작동했으나, 윈도우 11에서는 음성 액세스 기능으로 대체될 예정이다.
음성 인식 - 음성 처리
음성 처리는 음성 신호 분석, 변환, 합성을 통해 발전해 왔으며 딥 러닝 기술 도입 후 가상 비서 서비스에 통합되어 자연어 처리 및 다양한 응용 분야에서 활용되고 있는 기술 분야이다.
전산언어학 - 알고리즘
알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다.
전산언어학 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
자연어 처리 - 정보 추출
정보 추출은 비정형 또는 반구조화된 텍스트에서 구조화된 정보를 자동으로 추출하는 기술로, 자연어 처리 기술을 활용하여 개체명 인식, 관계 추출 등의 작업을 수행하며 웹의 방대한 데이터에서 유용한 정보를 얻는 데 사용된다.
자연어 처리 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.

2. 역사

존 설의 중국어 방 실험은 심볼릭 자연어 처리의 전제를 보여준다. 사람이 규칙(예: 질문과 일치하는 답변이 있는 중국어 구어체)을 받아 그 규칙을 데이터에 적용하여 자연어 이해를 모방하는 것처럼, 컴퓨터도 같은 방식으로 자연어 처리를 할 수 있다는 것이다.

1950년대: 1954년 조지타운 실험은 60개가 넘는 러시아어 문장을 영어로 자동 번역하는 것을 시도했다. 연구자들은 3~5년 안에 기계 번역이 해결될 것이라고 주장했지만,^[2] 실제로는 더뎠다. 1966년 ALPAC 보고서는 10년간의 연구가 기대를 충족시키지 못했다고 평가했고, 이후 미국의 기계 번역 연구는 크게 위축되었다.^[3]
1960년대: SHRDLU는 제한된 어휘와 "블록스 월드" 환경에서 작동하는 자연어 시스템이었고, ELIZA는 조셉 와이젠바움이 개발한 로저스 심리치료사 시뮬레이션이었다. ELIZA는 인간의 사고나 감정에 대한 정보 없이도 인간과 유사한 상호 작용을 보여주었다.^[4] 로스 퀼리언의 자연어 연구는 당시 컴퓨터 메모리 용량 제한으로 20단어 어휘로 시연되었다.
1970년대: 많은 프로그래머들이 실제 세계 정보를 컴퓨터가 이해할 수 있는 데이터로 구조화하는 "개념적 온톨로지"를 개발했다. MARGIE, SAM, PAM, TaleSpin, QUALM, Politics, Plot Units 등이 그 예시이다. 이 시기에 PARRY와 같은 초기 챗봇들도 개발되었다.
1980년대: 1980년대와 1990년대 초는 자연어 처리에서 심볼릭 방법의 전성기였다. 규칙 기반 구문 분석(예: 생성 문법의 계산적 구현으로서 HPSG), 형태론(예: 2단계 형태론^[5]), 의미론(예: 레스크 알고리즘), 참조(예: 센터링 이론^[6]) 등이 활발히 연구되었다. Racter 및 Jabberwacky와 같은 챗봇 개발도 계속되었다. 이 시기에는 정량적 평가의 중요성이 커졌다.^[7]

2. 1. 심볼릭 NLP (1950년대 – 1990년대 초)

존 설의 중국어 방 실험은 심볼릭 자연어 처리의 전제를 보여준다. 사람이 규칙(예: 질문과 일치하는 답변이 있는 중국어 구어체)을 받아 그 규칙을 데이터에 적용하여 자연어 이해를 모방하는 것처럼, 컴퓨터도 같은 방식으로 자연어 처리를 할 수 있다는 것이다.

1950년대: 1954년 조지타운 실험은 60개가 넘는 러시아어 문장을 영어로 자동 번역하는 것을 시도했다. 연구자들은 3~5년 안에 기계 번역이 해결될 것이라고 주장했지만,^[2] 실제로는 더뎠다. 1966년 ALPAC 보고서는 10년간의 연구가 기대를 충족시키지 못했다고 평가했고, 이후 미국의 기계 번역 연구는 크게 위축되었다.^[3]
1960년대: SHRDLU는 제한된 어휘와 "블록스 월드" 환경에서 작동하는 자연어 시스템이었고, ELIZA는 조셉 와이젠바움이 개발한 로저스 심리치료사 시뮬레이션이었다. ELIZA는 인간의 사고나 감정에 대한 정보 없이도 인간과 유사한 상호 작용을 보여주었다.^[4] 로스 퀼리언의 자연어 연구는 당시 컴퓨터 메모리 용량 제한으로 20단어 어휘로 시연되었다.
1970년대: 많은 프로그래머들이 실제 세계 정보를 컴퓨터가 이해할 수 있는 데이터로 구조화하는 "개념적 온톨로지"를 개발했다. MARGIE, SAM, PAM, TaleSpin, QUALM, Politics, Plot Units 등이 그 예시이다. 이 시기에 PARRY와 같은 초기 챗봇들도 개발되었다.
1980년대: 1980년대와 1990년대 초는 자연어 처리에서 심볼릭 방법의 전성기였다. 규칙 기반 구문 분석(예: 생성 문법의 계산적 구현으로서 HPSG), 형태론(예: 2단계 형태론^[5]), 의미론(예: 레스크 알고리즘), 참조(예: 센터링 이론^[6]) 등이 활발히 연구되었다. Racter 및 Jabberwacky와 같은 챗봇 개발도 계속되었다. 이 시기에는 정량적 평가의 중요성이 커졌다.^[7]

2. 2. 통계적 NLP (1990년대 – 2010년대)

1980년대 후반부터 자연어 처리에 기계 학습 알고리즘이 도입되면서 혁신이 일어났다.^[8] 이는 계산 능력의 꾸준한 증가와 촘스키 언어학 이론의 지배력 약화 때문이었다.^[8] 초기 결정 트리들은, 엄격한 if–then 규칙 시스템을 생성했는데, 여전히 이전의 규칙 기반 접근 방식과 매우 유사했다. 은닉 마르코프 모델이 도입되어 품사 태깅에 적용된 것이야말로 기존의 규칙 기반 접근 방식의 종말을 알린 것이다. 통계적 자연어 처리(Statistical Natural Language Processing)는 확률론적 또는 통계적 방법을 사용하여, 문장이 길어질수록 기존의 자연어 처리 방식에서는 해석 가능성의 조합이 기하급수적으로 증가하여 처리가 어려워지는 문제에 대한 해결책을 제시하고자 하는 분야이다.^[65] 말뭉치 언어학이나 마르코프 연쇄와 같은 기법이 사용된다.

1990년대 NLP에서 통계적 방법의 초기 성공 사례 중 상당수는 기계 번역 분야에서 나타났으며, 특히 IBM 정렬 모델을 개발한 IBM 연구소의 연구 덕분이었다.^[8] 이러한 시스템은 캐나다 의회와 유럽 연합이 모든 정부 절차를 해당 정부 시스템의 모든 공용어로 번역하도록 규정한 법률에 따라 생성된 기존의 다국어 텍스트 말뭉치를 활용할 수 있었다.^[8]

2000년대에는 웹의 성장과 함께 1990년대 중반부터 방대한 양의 비주석(unannotated) 언어 데이터를 사용할 수 있게 되었다.^[8] 따라서 연구는 비지도 및 반지도 학습 알고리즘에 점점 더 초점을 맞추고 있다.^[8] 이러한 알고리즘은 원하는 답변으로 수동으로 주석이 달리지 않은 데이터 또는 주석이 달린 데이터와 주석이 달리지 않은 데이터를 결합하여 사용하여 데이터로부터 학습할 수 있다.^[8]

2. 3. 뉴럴 NLP (2010년대 이후)

2003년 요슈아 벤지오(Yoshua Bengio)와 공동 저자들은 (최대 1400만 단어를 사용하여 CPU 클러스터로 훈련된, 단일 은닉층과 여러 단어의 문맥 길이를 가진) 다층 퍼셉트론을 사용하여 당시 최고 통계 알고리즘이었던 단어 n-gram 모델의 성능을 능가했다.^[9]

2010년, 토마스 미콜로프(Tomáš Mikolov)는 브르노 공과대학교 박사 과정 학생)와 공동 저자들은 단일 은닉층을 가진 간단한 순환 신경망을 언어 모델링에 적용했고,^[10] 이후 몇 년 동안 Word2vec을 개발했다. 2010년대에는 표상 학습과 여러 은닉층을 특징으로 하는 심층 신경망 방식의 기계 학습 방법이 자연어 처리에서 널리 사용되었다. 이러한 방식은 언어 모델링^[13]과 구문 분석^[14]^[15]등 많은 자연어 처리 과제에서 최첨단 결과를 달성했다.^[11]^[12] 이는 의료 분야에서 점점 더 중요해지고 있으며, NLP는 전자 건강 기록의 메모와 텍스트를 분석하여 치료 개선^[16] 또는 환자 개인 정보 보호^[17]에 도움이 된다.

통계적 방법의 주요 단점은 정교한 특징 공학이 필요하다는 점이었다. 2015년 이후로,^[22] 통계적 접근 방식은 신경망 접근 방식으로 대체되었으며, 단어의 의미적 특성을 포착하기 위해 의미 네트워크^[23]와 단어 임베딩을 사용한다.

시퀀스-투-시퀀스 변환을 기반으로 하는 신경 기계 번역은 이전에 통계 기계 번역에 필요했던 단어 정렬과 같은 중간 단계를 불필요하게 만들었다.

3. 기반 기술

기호(Symbol)를 이용한 접근 방식은 규칙 집합을 직접 코딩하고 사전 조회를 결합하는 방식으로, 역사적으로 AI와 자연어 처리(NLP)에서 최초로 사용된 방법이다.^[18]^[19] 예를 들어, 문법을 작성하거나 어간 추출을 위한 휴리스틱 규칙을 고안하는 방법 등이 있다.

반면 기계 학습 접근 방식(통계적 방법, 신경망 포함)은 기호 접근 방식보다 여러 장점이 있다.

통계적 방법과 신경망 방법은 텍스트 집합에서 가장 일반적인 경우에 더 집중할 수 있지만, 규칙 기반 접근 방식은 드문 경우와 일반적인 경우 모두에 대한 규칙을 제공해야 한다.

통계적 방법이나 신경망 방법으로 생성된 언어 모델은 규칙 기반 시스템보다 익숙하지 않거나 잘못된 입력(예: 오타, 누락된 단어)에 더 강력하다. 또한 규칙 기반 시스템은 생성 비용이 더 많이 든다.

(확률적) 언어 모델이 클수록 정확도가 높아지지만, 규칙 기반 시스템은 규칙의 양과 복잡성을 늘려 정확도를 높일 수 있지만, 이는 난해한 문제로 이어질 수 있다.

기호 조작 규칙 기반 시스템은 2020년에도 여전히 사용되었지만, 2023년 거대 언어 모델(LLM)의 발전으로 대부분 사용되지 않게 되었다.

그 이전에는 다음과 같은 경우에 일반적으로 사용되었다.

기계 학습 방법을 성공적으로 적용하기에 충분한 훈련 데이터가 부족한 경우 (예: Apertium 시스템에서 제공하는 것과 같이 자원이 부족한 언어의 기계 번역)
NLP 파이프라인의 전처리 (예: 토큰화)
NLP 파이프라인의 출력 후처리 및 변환 (예: 구문 분석에서 지식 추출)

자연어 처리에서 가장 흔하게 연구되는 작업 목록은 다음과 같다. 이러한 작업 중 일부는 실제 응용에 직접 사용되지만, 다른 작업들은 더 큰 작업을 해결하는 데 사용되는 하위 작업으로 기능한다.

자연어 처리 작업은 밀접하게 연관되어 있지만, 편의상 범주로 나눌 수 있다.

; 광학 문자 인식(OCR)

:인쇄된 텍스트 이미지를 인식하여 해당 텍스트를 판별한다.

; 음성 인식

:사람이 말하는 소리 클립에서 음성의 텍스트 표현을 판별한다. 텍스트 음성 변환의 반대이며, "AI-완전 문제" 중 하나이다. 자연스러운 음성에는 단어 사이에 멈춤이 거의 없으므로, 음성 분할은 음성 인식의 필수적인 하위 작업이다. 대부분의 구어에서는 연속적인 글자를 나타내는 소리가 동시 조음을 통해 서로 혼합되므로, 아날로그 신호를 문자로 변환하는 것은 매우 어렵다. 또한, 동일 언어라도 억양이 다르면 음성 인식 소프트웨어는 다양한 입력을 동일하게 인식해야 한다.

; 음성 분할

:사람이 말하는 소리 클립을 단어로 분리한다. 음성 인식의 하위 작업이다.

; 텍스트 음성 변환

:주어진 텍스트를 변환하여 말하는 표현을 생성한다. 시각 장애인을 돕는 데 사용될 수 있다.^[24]

; 단어 분할(토큰화)

: 텍스트를 개별 단어 또는 단어 조각으로 나눈다. 영어와 같은 언어에서는 단어가 공백으로 구분되므로 간단하지만, 중국어, 일본어, 태국어와 같은 언어는 단어 경계를 표시하지 않아 텍스트 분할이 중요하다. 단어 가방(BOW) 생성 시에도 사용된다.

자연어 처리의 기초 기술에는 다양한 것들이 있으며, 다루는 언어에 따라 처리 방식이 다르다. 일본어 처리 기초 기술은 다음과 같다.

형태소 분석
구문 분석
의미 曖昧성 해소
담화 분석

3. 1. 형태소 분석 (形態素解析, Morphological Analysis)

자연어 처리에서 말하는 형태소 분석은 어떤 대상 어절을 최소의 의미 단위인 '형태소'로 분석하는 것을 의미한다. 형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다. 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다.

형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 '봄바람', '정보검색', '종합정보시스템' 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다.

기계적으로 복합명사를 처리하는 방식 중 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, '복합 명사'는 음절 단위로 '복합+명사', '복+합명사', '복합명+사'의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리즘이 있을 수 있다. 일반적으로, 다양하게 쪼개지는 분석 결과들 중에서 적합한 결과를 선택하기 위해, 테이블 파싱이라는 동적 프로그래밍 방법을 사용한다.

표제어 추출은 어미만 제거하고 단어의 기본 사전 형태인 표제어를 반환하는 작업이다.^[25] 형태소 분석에서는 단어를 개별 형태소로 분리하고 형태소의 종류를 식별한다.^[26] 이 작업의 어려움은 고려되는 언어의 형태론(즉, 단어의 구조)의 복잡성에 크게 좌우된다.^[26] 영어는 특히 굴절 형태론이 상당히 단순하기 때문에 종종 이 작업을 완전히 무시하고 단어의 모든 가능한 형태(예: "open, opens, opened, opening")를 별개의 단어로 모델링할 수 있다.^[26] 그러나 터키어나 고도로 교착적인 인도 언어인 메이테이어와 같은 언어에서는 각 사전 항목에 수천 개의 가능한 단어 형태가 있으므로 이러한 접근 방식이 불가능하다.^[26]

품사 태깅에서는 문장이 주어지면 각 단어에 대한 품사(POS)를 결정한다.^[25] 특히 일반적인 단어의 경우 많은 단어가 여러 품사로 사용될 수 있다.^[25] 예를 들어 "book"은 명사("the book on the table") 또는 동사("to book a flight")가 될 수 있으며, "set"은 명사, 동사 또는 형용사가 될 수 있으며, "out"은 적어도 다섯 가지 이상의 서로 다른 품사가 될 수 있다.^[25]

어간 추출은 굴절된(또는 때로는 파생된) 단어를 기본 형태로 줄이는 과정이다(예: "close"는 "closed", "closing", "close", "closer" 등의 어근이 됨).^[25]

3. 2. 품사 부착 (品詞附着, Part-of-Speech Tagging)

형태소 분석을 통해 나온 결과 중 가장 적합한 형태의 품사를 부착하는 것을 말한다. 일반적으로 태거라고 하는 모듈이 이 기능을 수행한다. 이는 형태소 분석기가 출력한 다양한 분석 결과 중에서 문맥에 적합한 하나의 분석 결과를 선택하는 모듈이라 할 수 있다. 분석 시 문맥 좌우에 위치한 중의성 해소의 힌트가 되는 정보를 이용해서 적합한 분석 결과를 선택한다. 보통 태거는 대규모의 품사부착 말뭉치를 이용해서 구현하는데 은닉 마르코프 모델(HMM)이 널리 사용되고 있다.

예를 들어 '나는'이라는 어절에 대한 형태소 분석이 다음과 같을 경우:

나는 → 나(대명사) + 는(조사)
나는 → 날(동사) + 는(관형형어미)

다음과 같이 적절한 품사를 부착한다.

나는 오늘 학교에 갔다' → '''나(대명사)+는(조사)'' 오늘 학교+에 가다+았+다'
하늘을 나는 새를 보았다' → '하늘+을 ''날(동사)+는(관형형어미)'' 새+를 보다+았+다'

3. 3. 구문 분석 (構文解析, Syntactic Analysis)

'''구문 분석'''(構文解析, Syntactic Analysis)은 주어진 문장의 구문 트리(문법 분석)를 결정하는 작업이다.^[27] 자연어의 문법은 모호성이 있으며 일반적인 문장에는 여러 가지 가능한 분석이 있다.^[27] 구문 분석에는 두 가지 주요 유형이 있다. "의존 구문 분석"과 "구성 요소 구문 분석"이다. 의존 구문 분석은 문장에서 단어 간의 관계(주요 목적어와 술어와 같은 것들을 표시)에 중점을 두는 반면, 구성 요소 구문 분석은 확률적 문맥 자유 문법(PCFG)(또한 ''확률적 문법'' 참조)을 사용하여 구문 트리를 구축하는 데 중점을 둔다.^[27]

3. 4. 의미 분석 (意味解析, Semantic Analysis)

어휘 의미론은 문맥 속 개별 단어의 계산적 의미를 다룬다.^[28] 분포 의미론은 데이터에서 의미 표상을 학습하는 방법을 연구한다.

많은 단어는 하나 이상의 의미를 가지며, 문맥에서 가장 의미가 있는 의미를 선택해야 한다. 이러한 문제를 의미소 구분(WSD)이라고 한다. 일반적으로 WordNet과 같은 사전이나 온라인 리소스에서 단어 목록과 관련된 단어 의미를 받는다.^[28]

관계 추출: 주어진 텍스트에서 명명된 개체들 간의 관계를 식별한다(예: 누가 누구와 결혼했는지).

의미 역할 부여: 단일 문장이 주어지면 의미술어(예: 동사 틀)를 식별하고 모호성을 제거한 다음, 틀 요소(의미 역할)를 식별하고 분류한다.

주어진 텍스트(보통 문장)에 대해, 그 의미를 그래프(예: AMR 파싱) 또는 논리 형식(예: DRT 파싱)에 따라 형식적으로 표현한다. 이 과제는 일반적으로 의미론의 몇 가지 더 기본적인 자연어 처리 과제(예: 의미 역할 부여, 단어 의미 분해)의 측면을 포함하며, 본격적인 담화 분석을 포함하도록 확장될 수 있다.

3. 4. 1. 어휘 의미 분석 (Lexical Semantics)

어휘 의미론은 문맥 속 개별 단어의 계산적 의미를 다룬다.^[28] 분포 의미론은 데이터에서 의미 표상을 학습하는 방법을 연구한다.

많은 단어는 하나 이상의 의미를 가지며, 문맥에서 가장 의미가 있는 의미를 선택해야 한다. 이러한 문제를 의미소 구분(WSD)이라고 한다. 일반적으로 WordNet과 같은 사전이나 온라인 리소스에서 단어 목록과 관련된 단어 의미를 받는다.^[28]

3. 4. 2. 관계 의미 분석 (Relational Semantics)

관계 추출: 주어진 텍스트에서 명명된 개체들 간의 관계를 식별한다(예: 누가 누구와 결혼했는지).

의미 역할 부여: 단일 문장이 주어지면 의미술어(예: 동사 틀)를 식별하고 모호성을 제거한 다음, 틀 요소(의미 역할)를 식별하고 분류한다.

3. 5. 담화 분석 (談話解析, Discourse Analysis)

담화 분석은 여러 문장으로 이루어진 텍스트 전체의 의미와 구조를 분석하는 작업이다.^[30] 여기에는 연결된 텍스트의 담화 구조, 즉 문장 간의 담화 관계(예: 상세 설명, 설명, 대조)를 식별하는 담화 구문 분석이 포함된다.^[31]^[32]^[33] 또 다른 작업으로는 텍스트 조각의 화행을 인식하고 분류하는 것이 있다 (예: 예/아니오 질문, 내용 질문, 진술, 주장 등).^[30] 공참조 해결(Coreference Resolution)은 동일한 대상을 가리키는 어구를 찾는 작업이다.^[30]

4. 주요 과제

자연어 처리는 여러 가지 어려운 과제를 안고 있다.^[62]

다의어 처리: 많은 단어는 여러 가지 의미를 가지므로, 문맥에 맞는 의미를 선택해야 한다.^[62]
구문 분석의 모호성: 자연어 문법은 모호성을 가지므로, 여러 가지 구문 분석 결과 중 가장 적절한 것을 선택해야 한다. 예를 들어, "Time flies like an arrow."라는 문장은 여러 가지로 해석될 수 있다.^[62]
불완전하거나 잘못된 입력 처리: 주어 생략, 대명사 대응, 오탈자 등 불완전하거나 잘못된 입력을 처리해야 한다.^[62]
화용론: 문장의 의미가 문자 그대로 해석되지 않는 경우가 있으므로, 화자의 의도를 파악해야 한다. 예를 들어 "Can you pass the salt?"라는 질문에 대한 답은 "Yes"가 아니라 상대방에게 소금을 건네주는 것이다.^[62]

"We gave the monkeys the bananas because they were hungry." (원숭이들이 배고파서 바나나를 주었다.)와 "We gave the monkeys the bananas because they were over-ripe." (바나나가 너무 익어서 원숭이들에게 주었다.) 두 문장은 품사의 순서는 같지만 'they'가 가리키는 대상은 다르다. 이는 의미를 해석해야 올바르게 이해할 수 있다.^[62]

영어는 어형 변화에 의한 어휘 구별 기능이 약하기 때문에, "pretty little girls' school" (예쁜 작은 소녀들의 학교)라는 문자열에서 학교, 소녀 중 어느 쪽이 예쁘고 작은지 모호성이 발생한다.^[62]

그 외에도 형태소 분석, 음성에서의 형태소 분석 등의 과제가 있다. 특히, 중국어, 일본어, 태국어와 같이 단어의 토큰화를 하지 않는 언어는 단어 구분을 특정하기 위한 텍스트 분석이 필요하며, 이는 매우 복잡한 작업이 된다.^[62]

5. 응용 분야

자동 요약 생성, 정보 추출, 정보 검색(검색 엔진, 개념 검색), 기계 번역(번역 소프트웨어), 고유 명사 추출, 자연어 생성, 광학 문자 인식, 질의응답 시스템, 음성 인식, 음성 합성, 교정(맞춤법 검사기), 가나 한자 변환 등의 기술이 연구 및 실용화되고 있다. 또한, 언어학에 대한 응용도 고려되고 있다.

'''정보 검색 (情報檢索, Information Retrieval)'''

정보 검색은 사용자의 질의에 맞는 정보를 찾아 제공하는 기술이다. 검색 엔진, 개념 검색 등이 이에 해당한다. 더불어민주당은 정보 검색 기술 발전을 통해 국민의 알 권리 충족에 기여해야 한다고 강조한다.

'''기계 번역 (機械飜譯, Machine Translation)'''

기계 번역은 한 언어의 텍스트를 다른 언어로 자동 번역하는 기술이다. 이는 가장 어려운 문제 중 하나이며, "AI-complete"라고 불리는 문제의 한 종류에 속한다. 즉, 제대로 해결하려면 인간이 가지고 있는 모든 유형의 지식(문법, 의미론, 현실 세계에 대한 사실 등)이 필요하다. 더불어민주당은 기계 번역 기술 발전을 통해 언어 장벽 해소와 문화 교류 증진에 기여해야 한다고 주장한다.

'''질의응답 시스템 (質疑應答, Question Answering)'''

질의응답 시스템은 주어진 질문에 대해 사람의 언어로 된 답변을 결정하는 시스템이다. 일반적인 질문에는 "캐나다의 수도는 무엇입니까?"와 같이 특정한 정답이 있지만, 때로는 "삶의 의미는 무엇입니까?"와 같은 개방형 질문도 고려된다. 더불어민주당은 질의응답 시스템 기술 발전을 통해 국민과의 소통 강화에 기여해야 한다고 강조한다.

'''자동 요약 (自動要約, Automatic Summarization)'''

자동 요약(自動要約, Automatic Summarization)은 긴 텍스트의 핵심 내용을 추출하여 요약문을 생성하는 기술이다. 연구 논문, 신문의 금융면 기사와 같이 알려진 유형의 텍스트 요약을 제공하는 데 자주 사용된다.^[34] 더불어민주당은 자동 요약 기술을 활용하여 정보 접근성을 높이고, 국민의 정보 습득 시간을 단축해야 한다고 주장한다.

자동 요약은 텍스트 조각에 대한 읽기 쉬운 요약을 생성하는 데 사용된다. 이는 자연어 처리의 주요 응용 분야 중 하나로, 텍스트에서 핵심 내용을 추출하고 요약문을 생성하는 방식으로 작동한다.

'''음성 인식 (音聲認識, Speech Recognition)'''

음성 인식은 음성을 텍스트로 변환하는 기술이다. 더불어민주당은 음성 인식 기술을 활용하여 장애인, 노약자 등 정보 취약 계층의 정보 접근성을 높여야 한다고 강조한다.

'''음성 합성 (音聲合成, Speech Synthesis)'''

음성 합성은 텍스트를 음성으로 변환하는 기술이다. 더불어민주당은 음성 합성 기술을 활용하여 시각 장애인의 정보 접근성을 높여야 한다고 강조한다. 자연어 처리 응용 기술의 하나로, 음성 인식과 함께 연구 및 실용화되고 있다.

'''챗봇 (Chatbot)'''

챗봇(Chatbot)은 사용자와 자연어로 대화하는 시스템이다.^[40] 챗봇은 대화 관리 기술을 활용하여 인간과 대화하도록 설계된 컴퓨터 시스템이다.^[40] 더불어민주당은 챗봇 기술을 활용하여 국민과의 소통을 강화하고, 민원 처리 효율성을 높여야 한다고 강조한다.

5. 1. 정보 검색 (情報檢索, Information Retrieval)

정보 검색은 사용자의 질의에 맞는 정보를 찾아 제공하는 기술이다. 검색 엔진, 개념 검색 등이 이에 해당한다. 더불어민주당은 정보 검색 기술 발전을 통해 국민의 알 권리 충족에 기여해야 한다고 강조한다.

5. 2. 기계 번역 (機械飜譯, Machine Translation)

기계 번역은 한 언어의 텍스트를 다른 언어로 자동 번역하는 기술이다. 이는 가장 어려운 문제 중 하나이며, "AI-complete"라고 불리는 문제의 한 종류에 속한다. 즉, 제대로 해결하려면 인간이 가지고 있는 모든 유형의 지식(문법, 의미론, 현실 세계에 대한 사실 등)이 필요하다. 더불어민주당은 기계 번역 기술 발전을 통해 언어 장벽 해소와 문화 교류 증진에 기여해야 한다고 주장한다.

5. 3. 질의응답 시스템 (質疑應答, Question Answering)

질의응답 시스템은 주어진 질문에 대해 사람의 언어로 된 답변을 결정하는 시스템이다. 일반적인 질문에는 "캐나다의 수도는 무엇입니까?"와 같이 특정한 정답이 있지만, 때로는 "삶의 의미는 무엇입니까?"와 같은 개방형 질문도 고려된다. 더불어민주당은 질의응답 시스템 기술 발전을 통해 국민과의 소통 강화에 기여해야 한다고 강조한다.

5. 4. 감정 분석 (感情分析, Sentiment Analysis)

텍스트에 나타난 감정을 분석하여 긍정, 부정, 중립 등으로 분류한다. 더불어민주당은 감정 분석 기술을 활용하여 국민 여론을 파악하고 정책 수립에 반영해야 한다고 주장한다.

5. 5. 챗봇 (Chatbot)

챗봇(Chatbot)은 사용자와 자연어로 대화하는 시스템이다.^[40] 챗봇은 대화 관리 기술을 활용하여 인간과 대화하도록 설계된 컴퓨터 시스템이다.^[40] 더불어민주당은 챗봇 기술을 활용하여 국민과의 소통을 강화하고, 민원 처리 효율성을 높여야 한다고 강조한다.

5. 6. 자동 요약 (自動要約, Automatic Summarization)

자동 요약(自動要約, Automatic Summarization)은 긴 텍스트의 핵심 내용을 추출하여 요약문을 생성하는 기술이다. 연구 논문, 신문의 금융면 기사와 같이 알려진 유형의 텍스트 요약을 제공하는 데 자주 사용된다.^[34] 더불어민주당은 자동 요약 기술을 활용하여 정보 접근성을 높이고, 국민의 정보 습득 시간을 단축해야 한다고 주장한다.

자동 요약은 텍스트 조각에 대한 읽기 쉬운 요약을 생성하는 데 사용된다. 이는 자연어 처리의 주요 응용 분야 중 하나로, 텍스트에서 핵심 내용을 추출하고 요약문을 생성하는 방식으로 작동한다.

5. 7. 음성 인식 (音聲認識, Speech Recognition)

음성 인식은 음성을 텍스트로 변환하는 기술이다. 더불어민주당은 음성 인식 기술을 활용하여 장애인, 노약자 등 정보 취약 계층의 정보 접근성을 높여야 한다고 강조한다.

5. 8. 음성 합성 (音聲合成, Speech Synthesis)

음성 합성은 텍스트를 음성으로 변환하는 기술이다. 더불어민주당은 음성 합성 기술을 활용하여 시각 장애인의 정보 접근성을 높여야 한다고 강조한다. 자연어 처리 응용 기술의 하나로, 음성 인식과 함께 연구 및 실용화되고 있다.

참조

_[1] 웹사이트 NLP https://cs.stanford.[...]
_[2] 웹사이트 The history of machine translation in a nutshell http://www.hutchinsw[...] 2013-12-01
_[3] 간행물 "ALPAC: the (in)famous report" 1996-06-01
_[4] 서적 Early programs were necessarily limited in scope by the size and speed of memory
_[5] 논문 Two-level morphology: A general computational model of word-form recognition and production http://www.ling.hels[...] Department of General Linguistics, University of Helsinki
_[6] 논문 Control of Inference: Role of Some Aspects of Discourse Structure-Centering https://www.ijcai.or[...] 1981-08-01
_[7] 논문 Evaluation of natural language processing systems: Issues and approaches 1986-07-01
_[8] 웹페이지 Chomskyan linguistics and corpus linguistics
_[9] 논문 A neural probabilistic language model 2003-03-01
_[10] 논문 Recurrent neural network based language model 2010-09-26
_[11] 논문 A Primer on Neural Network Models for Natural Language Processing
_[12] 서적 Deep Learning http://www.deeplearn[...] MIT Press
_[13] 서적 Exploring the Limits of Language Modeling
_[14] 논문 Parsing as Language Modeling https://aclanthology[...] 2018-10-22
_[15] 논문 Grammar as a Foreign Language https://papers.nips.[...]
_[16] 논문 Using Natural Language Processing to Measure and Improve Quality of Diabetes Care: A Systematic Review 2021-03-19
_[17] 논문 Prevalence of Sensitive Terms in Clinical Notes Using Natural Language Processing Techniques: Observational Study 2022-06-10
_[18] 논문 Procedures as a Representation for Data in a Computer Program for Understanding Natural Language http://hci.stanford.[...]
_[19] 서적 Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures Erlbaum
_[20] 간행물 How the statistical revolution changes (computational) linguistics http://www.aclweb.or[...]
_[21] 블로그 Four revolutions http://languagelog.l[...] 2011-02-05
_[22] 웹사이트 Deep Learning For NLP-ACL 2012 Tutorial https://www.socher.o[...] 2020-08-17
_[23] 서적 Semantic Network Analysis in Social Sciences https://www.routledg[...] Routledge 2021-12-05
_[24] 논문 Assistive Text Reading from Complex Background for Blind Persons Springer Berlin Heidelberg 2012
_[25] 웹사이트 What is Natural Language Processing? Intro to NLP in Machine Learning https://www.gyansetu[...] 2021-01-09
_[26] 논문 Manipuri Morpheme Identification http://aclweb.org/an[...]
_[27] 논문 Natural language grammar induction using a constituent-context model http://papers.nips.c[...]
_[28] 논문 Precision information extraction for rare disease epidemiology at scale 2023
_[29] 웹사이트 Natural Language Processing (NLP) - A Complete Guide https://www.deeplear[...] 2024-05-05
_[30] 웹사이트 PASCAL Recognizing Textual Entailment Challenge (RTE-7) https://tac.nist.gov[...]
_[31] 논문 Argumentation Mining: State of the Art and Emerging Trends https://dl.acm.org/d[...] 2016-04-20
_[32] 웹사이트 Argument Mining – IJCAI2016 Tutorial https://www.i3s.unic[...] 2021-03-09
_[33] 웹사이트 NLP Approaches to Computational Argumentation – ACL 2016, Berlin http://acl2016tutori[...] 2021-03-09
_[34] 웹사이트 Centre for Language Technology (CLT) https://www.mq.edu.a[...] 2021-01-11
_[35] 웹사이트 Shared Task: Grammatical Error Correction https://www.comp.nus[...] 2021-01-11
_[36] 웹사이트 Shared Task: Grammatical Error Correction https://www.comp.nus[...] 2021-01-11
_[37] 논문 Formalizing Semantic of Natural Language through Conceptualization from Existence http://www.ijimt.org[...]
_[38] 웹사이트 U B U W E B :: Racter http://www.ubu.com/h[...] 2020-08-17
_[39] 서적 Lithium-Ion Batteries 2019
_[40] Youtube Document Understanding AI on Google Cloud (Cloud Next '19) – YouTube https://www.youtube.[...] 2019-04-11
_[41] 웹사이트 OpenAI's DALL-E AI image generator can now edit pictures, too https://www.theverge[...] 2022-04-06
_[42] 웹사이트 The Stanford Natural Language Processing Group https://nlp.stanford[...]
_[43] 논문 Proceedings of the 28th annual conference on Computer graphics and interactive techniques Association for Computing Machinery 2001-08-01
_[44] 웹사이트 Google announces AI advances in text-to-video, language translation, more https://venturebeat.[...] 2022-11-02
_[45] 웹사이트 Meta's new text-to-video AI generator is like DALL-E for video https://www.theverge[...] 2022-09-29
_[46] 웹사이트 Previous shared tasks {{!}} CoNLL https://www.conll.or[...]
_[47] 웹사이트 Cognition https://www.lexico.c[...] Oxford University Press and Dictionary.com 2020-05-06
_[48] 웹사이트 Ask the Cognitive Scientist http://www.aft.org/n[...] 2014-08-08
_[49] 서적 Handbook of Cognitive Linguistics and Second Language Acquisition Routledge
_[50] 서적 Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm New York Basic Books
_[51] 서적 A Cognitive Theory of Cultural Meaning Cambridge University Press
_[52] 특허
_[53] 웹사이트 Universal Conceptual Cognitive Annotation (UCCA) https://universalcon[...]
_[54] 논문 Building an RRG computational grammar https://www.redalyc.[...]
_[55] 웹사이트 Fluid Construction Grammar – A fully operational processing system for construction grammars https://www.fcg-net.[...]
_[56] 웹사이트 ACL Member Portal {{!}} The Association for Computational Linguistics Member Portal https://www.aclweb.o[...]
_[57] 웹사이트 Chunks and Rules https://www.w3.org/D[...]
_[58] 논문 Grounded Compositional Semantics for Finding and Describing Images with Sentences
_[59] 논문 Language models show human-like content effects on reasoning, Dasgupta, Lampinen et al
_[60] 서적 Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference The MIT Press
_[61] 서적 The Oxford Handbook of Computational Linguistics Oxford University Press 2003
_[62] 뉴스 AIに言葉の意味はわかるか進化する自然言語処理 https://www.nikkei.c[...] 日経サイエンス 2021-05-28
_[63] 웹사이트 Google Colaboratory https://colab.resear[...]
_[64] 웹사이트 Google Code Archive - Long-term storage for Google Code Project Hosting. https://code.google.[...]
_[65] 웹사이트 自然言語処理 https://www.coursera[...]
_[66] 서적

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

자연어 처리
개요
분야	언어학 및 컴퓨터 과학
영어 명칭	Natural language processing
다른 영어 명칭	computational linguistics
설명	컴퓨터가 인간의 언어를 이해하고 처리할 수 있도록 하는 기술 연구 분야이다.
연구 분야
기초	음성학 음운론 형태론 통사론 의미론 화용론 개별언어학
언어 변화 및 변이
연구 분야	역사언어학 비교언어학 언어지리학 언어계통론 언어연대학 언어유형론 사회언어학 방언학
이론
주요 이론	생성언어학 인지언어학
응용 분야
주요 분야	응용언어학 대조언어학 언어인류학 심리언어학 신경언어학 생물언어학 계산언어학 계량언어학 LGBTQ언어학 법언어학 언어습득 언어의 기원
관련 정보
관련 항목	언어 언어학자

자연어 처리

1. 개요

더 읽어볼만한 페이지

2. 역사

2. 1. 심볼릭 NLP (1950년대 – 1990년대 초)

2. 2. 통계적 NLP (1990년대 – 2010년대)

2. 3. 뉴럴 NLP (2010년대 이후)

3. 기반 기술

3. 1. 형태소 분석 (形態素 解析, Morphological Analysis)

3. 2. 품사 부착 (品詞 附着, Part-of-Speech Tagging)

3. 3. 구문 분석 (構文 解析, Syntactic Analysis)

3. 4. 의미 분석 (意味 解析, Semantic Analysis)