맨위로가기

전산언어학

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

전산언어학은 컴퓨터를 사용하여 자연어를 분석하고 처리하는 학문 분야이다. 1950년대 기계 번역 연구에서 시작되어, 인공지능의 발전과 함께 언어 이해 및 생성 연구를 포괄하게 되었다. 언어의 형태론, 구문론, 의미론 등을 이해하고, 말뭉치(코퍼스)를 활용하여 언어 습득 및 자연어 처리 기술을 연구한다. 하위 분야로 말뭉치 언어학, 기계 번역 등이 있으며, 촘스키의 이론과 언어 습득 모델링이 이론적 배경을 이룬다. 자연어 처리와 경계가 모호하며, 계량국어학회와 같은 학회가 존재한다.

더 읽어볼만한 페이지

  • 형식과학 - 통계학
    통계학은 데이터를 수집, 분석, 해석하여 추론과 예측을 수행하는 학문으로, 기술 통계와 추론 통계를 통해 데이터를 요약, 설명하고 모집단의 특성을 추론하며, 다양한 분야에서 의사결정 도구로 활용된다.
  • 형식과학 - 컴퓨터 과학
    컴퓨터 과학은 컴퓨터와 관련된 현상을 연구하는 학문으로, 계산 이론, 하드웨어 및 소프트웨어 설계, 문제 해결 등을 포괄하며, 수학, 공학 등 여러 분야와 융합하여 발전해 왔다.
  • 전산언어학 - 알고리즘
    알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다.
  • 전산언어학 - 단어 의미 중의성 해소
    단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
전산언어학
개요
분야언어학, 컴퓨터 과학
연구 대상자연어 처리
관련 학문언어학
인지 과학
컴퓨터 과학
인공지능
정보 이론
수학
심리학
정의
설명컴퓨터를 이용해 자연어를 분석하고 처리하는 학문
역사
초기 연구1950년대: 기계 번역 연구 시작
1960년대: 문법 기반 접근 방식 (예: 변환 생성 문법)
발전1970년대: 통계적 방법론 도입
1980년대: 말뭉치 기반 연구 활성화
1990년대 이후: 기계 학습 방법론 발전, 딥러닝 기술 적용
연구 분야
주요 연구 분야기계 번역
정보 검색
질의 응답 시스템
텍스트 마이닝
음성 인식
음성 합성
자연어 생성
의미 분석
구문 분석
형태소 분석
언어 모델링
대화 시스템
감성 분석
개체명 인식
관계 추출
세부 연구 분야계산 형태론
계산 구문론
계산 의미론
담화 처리
연구 방법론
접근 방식규칙 기반 방법
통계 기반 방법
기계 학습 기반 방법
딥러닝 기반 방법
활용
실제 활용 예시챗봇
자동 번역기
스팸 메일 필터
음성 비서 (시리, 알렉사, 구글 어시스턴트)
텍스트 요약
검색 엔진
뉴스 추천 시스템
소셜 미디어 분석
관련 기술
연관 기술정규 표현식
유한 상태 오토마타
문맥 자유 문법
확률론
정보 이론
기계 학습
딥러닝
자연어 처리 툴킷 (NLTK, spaCy, KoNLPy)
워드 임베딩 (Word2Vec, GloVe, FastText)
트랜스포머 모델 (BERT, GPT)
관련 단체
학회계산 언어학 협회 (ACL)
한국정보과학회
한국인지과학회
참고 문헌
참고 도서(戸次大介 2010)
관련 문서
관련 문서자연 언어 처리
음성 인식
기계 번역
인공지능

2. 기원

전산 언어학은 1950년대 미국에서 외국어, 특히 러시아의 과학 잡지를 영어로 자동 번역하려는 노력에서 기원한다.[1] 초기에는 컴퓨터가 인간보다 수리적 능력이 뛰어나다는 점에 착안하여, 언어 처리 능력도 빠르게 획득할 수 있을 것으로 예상되었다.

그러나 기계 번역이 정확한 번역을 즉시 해내는 데 실패하면서, 인간 언어 자동화 프로세싱이 예상보다 훨씬 복잡하다는 사실이 밝혀졌다. 이후 전산 언어학은 언어 데이터를 지능적으로 처리하는 기술 및 소프트웨어 개발과 함께 새로운 학문 분야로 탄생했다. 1960년대 인공지능(AI)의 등장과 함께, 전산 언어학은 인간 수준의 언어 이해 및 자연어 생성을 다루는 인공지능의 하위 분야가 되었다. 데이비드 헤이스[2]는 규칙 기반 접근 방식의 실패 이후, 이 분야를 인공지능과 구별하기 위해 이 용어를 만들었으며, 1970년대와 1980년대에 전산언어학회 (ACL)와 국제 전산언어학 위원회(ICCL)를 공동 설립했다.[3][4]

3. 발전 과정

전산 언어학은 1950년대 미국에서 외국어, 특히 러시아어 과학 잡지를 영어로 자동 번역하려는 노력에서 시작되었다. 초기에는 컴퓨터의 빠른 수리 능력을 바탕으로 언어 처리도 곧 가능할 것이라 예상했지만, 기계 번역의 실패로 인해 인간 언어 처리가 예상보다 복잡하다는 것이 밝혀졌다. 이후 전산 언어학은 언어 데이터를 지능적으로 처리하는 기술의 발달과 함께 새로운 학문 분야로 탄생했다. 1960년대 인공지능(AI) 시대가 도래하면서 전산 언어학은 인간 수준의 이해와 자연어 생성을 다루는 인공지능의 하위 분야가 되었다.

한 언어를 다른 언어로 번역하기 위해서는 형태론, 구문론뿐만 아니라 의미론, 사전학, 화용론 등 언어의 다양한 측면에 대한 이해가 필요했다. 전산 언어학은 이러한 이해를 바탕으로 언어와 컴퓨터를 이용한 자연어 처리 사이를 연결하는 분야로 발전했다.

영어 연구를 위해 주석이 달린 텍스트 말뭉치(코퍼스)가 필요했으며, 펜 트리뱅크[5]는 가장 많이 사용되는 말뭉치 중 하나였다. 이 말뭉치는 IBM 컴퓨터 매뉴얼, 음성으로 기록된 전화 대화 등으로 구성되었으며, 450만 단어 이상의 미국 영어가 품사 태깅과 구문 괄호로 주석 처리되었다.[6] 일본어 문장 말뭉치 분석 결과 문장 길이와 관련하여 로그 정규성 패턴이 발견되기도 했다.[7]

촘스키의 이론은 전산언어학에 큰 영향을 미쳤으며, 특히 복잡한 문법 구조를 유아가 어떻게 학습하는지 이해하는 데 기여했다.[14] 당시에는 딥 러닝 모델이 존재하지 않아, 어린이가 언어 습득 과정에서 주로 긍정적인 증거, 즉 올바른 형태에 대한 증거만 제공받는다는 사실이 모델의 한계로 지적되기도 했다.[8][9][10] 그러나 언어는 아이가 기억력과 주의력이 발달함에 따라 점진적으로 제시되는 단순한 입력을 조합하여 학습할 수 있으며,[11] 이는 인간 유아와 어린이의 언어 습득 기간이 긴 이유를 설명한다.[11]

최근에는 로봇을 이용하여 언어학적 이론을 테스트하는 연구도 진행되었다.[12] 어린이와 유사하게 학습하도록 설계된 모델은 행동, 지각, 효과 간의 매핑을 생성하고 구두 언어에 연결하는 어포던스 모델을 기반으로 만들어졌으며, 문법 구조 없이도 단어-의미 매핑을 습득할 수 있다는 점이 주목할 만하다. 또한, 프라이스 방정식과 폴리아 항아리 역학을 사용하여 미래 언어 진화를 예측하고 현대 언어의 진화 역사에 대한 통찰력을 제공하는 시스템도 개발되었다.[13] 이 분야의 연구는 구조적 접근 방식과 전산 모델을 결합하여 펜 트리뱅크와 같은 대규모 언어 말뭉치를 분석하여 언어 습득의 패턴을 밝히는 데 도움을 준다.[15]

4. 하위 분야 및 관련 기술

전산언어학은 다양한 하위 분야와 관련 기술을 포함한다. 하위 분야로는 말뭉치언어학, 자연어 파서 및 품사표지부착기 설계, 자연어처리를 위한 특수 논리 정의, 형식언어와 자연어의 관계 연구, 기계번역 등이 있다. 관련 기술로는 구문 분석 알고리즘, 언어 분석, 지식 획득, 텍스트 함의 관계 인식, 기계 번역, 정보 추출, 자동 요약, 계량 언어학 등이 있다.[19]

4. 1. 하위 분야


  • 말뭉치언어학(코퍼스언어학)
  • 자연언어 파서 설계
  • 품사표지부착기 (POS 태거) 등의 설계
  • 자연언어처리를 위한 특수 논리 정의
  • 형식언어와 자연어의 일반적인 관계에 관한 연구
  • 기계번역 (자동번역)[5]
  • 문법 틀 및 이론
  • * 문맥 자유 문법
  • * 확률 문맥 자유 문법
  • * 나무 접합 문법
  • * 조합 범주 문법
  • * 주어 구동 구 구조 문법
  • 구문 분석 알고리즘
  • * CKY 알고리즘
  • * 얼리 알고리즘
  • * 차트 분석
  • * 최대 전역 트리
  • * 시프트-축소 파싱
  • 언어 분석
  • * 구문 분석
  • * 심층 구문 분석
  • * 의미 분석
  • * 격 분석
  • * 참조 해석
  • 기술
  • * 지식 획득
  • * 텍스트 함의 관계 인식
  • * 기계 번역
  • * 정보 추출
  • * 자동 요약
  • 계량 언어학[19]

4. 2. 관련 기술

5. 이론적 배경

촘스키의 이론은 전산언어학에 영향을 미쳤으며, 특히 복잡한 문법 구조를 유아가 어떻게 학습하는지 이해하는 데 영향을 미쳤다.[14] 촘스키 정규형에 의해 이론화된 "비정규 문법"을 유아가 어떻게 학습하는지에 대한 연구가 진행되었다.[9] 구조적 접근 방식과 전산 모델을 결합하여 펜 트리뱅크와 같은 대규모 언어 말뭉치를 분석하여 언어 습득의 패턴을 밝히는 연구도 진행되었다.[15]

어린이의 언어 습득 과정에서 주로 긍정적인 증거(올바른 형태)에만 노출되고, 올바르지 않은 형태에 대한 증거는 제공되지 않는다는 사실[8][9]은 초기 모델의 한계였다. 이는 1980년대 후반에는 현재 사용 가능한 딥 러닝 모델이 존재하지 않았기 때문이다.[10]

언어는 아이가 기억력과 주의력이 발달함에 따라 점진적으로 제시되는 단순한 입력을 조합하여 학습할 수 있으며,[11] 이는 인간 유아와 어린이의 언어 습득 기간이 긴 이유를 설명한다.[11]

로봇은 언어학적 이론을 테스트하는 데 사용되어 왔다.[12] 어린이와 유사하게 학습하도록 설계된 모델은 행동, 지각, 효과 간의 매핑을 생성하고 구두 언어에 연결하는 어포던스 모델을 기반으로 만들어졌다. 이러한 로봇은 문법 구조 없이도 작동하는 단어-의미 매핑을 습득할 수 있었다.

프라이스 방정식과 폴리아 항아리 역학을 사용하여 미래의 언어적 진화를 예측하고 현대 언어의 진화적 역사에 대한 통찰력을 제공하는 시스템이 개발되었다.[13]

5. 1. 촘스키의 이론

촘스키의 이론은 전산언어학에 영향을 미쳤으며, 특히 촘스키 정규형에서 설명하는 것과 같은 복잡한 문법 구조를 유아가 어떻게 학습하는지 이해하는 데 영향을 미쳤다.[14] 촘스키 정규형에 의해 이론화된 "비정규 문법"을 유아가 어떻게 학습하는지 결정하려는 시도가 있었다.[9] 이 분야의 연구는 구조적 접근 방식과 전산 모델을 결합하여 펜 트리뱅크와 같은 대규모 언어 말뭉치를 분석하여 언어 습득의 패턴을 밝히는 데 도움을 준다.[15]

5. 2. 언어 습득 모델링

어린이가 언어 습득 과정에서 주로 긍정적인 증거에만 노출된다는 사실[8], 즉 올바른 형태에 대한 증거만 제공되고 올바르지 않은 형태에 대한 증거는 제공되지 않는다는 사실[9]은 당시 모델의 한계였다. 왜냐하면, 현재 사용 가능한 딥 러닝 모델은 1980년대 후반에는 존재하지 않았기 때문이다.[10]

언어는 아이가 기억력과 주의력이 발달함에 따라 점진적으로 제시되는 단순한 입력을 조합하여 학습할 수 있으며,[11] 이는 인간의 유아와 어린이의 언어 습득 기간이 긴 이유를 설명해준다.[11]

로봇은 언어학적 이론을 테스트하는 데 사용되어 왔다.[12] 어린이와 유사하게 학습할 수 있도록 설계된 모델은 행동, 지각, 효과 간의 매핑을 생성하고 구두 언어에 연결하는 어포던스 모델을 기반으로 만들어졌다. 중요한 점은, 이러한 로봇이 문법 구조 없이도 작동하는 단어-의미 매핑을 습득할 수 있었다는 것이다.

프라이스 방정식과 폴리아 항아리 역학을 사용하여 연구자들은 미래의 언어적 진화를 예측할 뿐만 아니라 현대 언어의 진화적 역사에 대한 통찰력을 제공하는 시스템을 개발했다.[13]

6. 정의

본고에서 언급했듯이, 전산 언어학은 형식성을 중시하는 언어학의 한 분야이지만, 전산 언어학과 인접 분야, 특히 자연어 처리는 그 경계가 모호하다. 전산 언어학과 자연어 처리의 차이에 대해 전문가들은 다음과 같이 지적한다.

"언어에 관한 정보 과학적 연구의 목적은 인간의 언어 처리 과정에 대한 과학적인 규명이나 워드 프로세서, 기계 번역 등의 공학적 응용을 포함하여 매우 광범위하다. ...중략... "자연어 처리"는 다소 공학적 응용을 지향하는 표현이며, "계산 언어학"에는 좀 더 기초적이고 이론적인 뉘앙스가 있다"[3]

전산 언어학은 자연어 처리, 이론 언어학, 수리 논리학으로 구성된 수리 언어학의 한 분야로 여겨지기도 하는데[18], 이 경우에도 이공계의 "계산 언어학", 공학계의 "자연어 처리"로 위치 지어진다.



한편, 전산 언어학과 자연어 처리가 동의어로 사용되는 경우도 종종 있다. 실제로 이 분야에서 가장 권위 있는 국제 학회인 계산 언어학회(Association for Computational Linguistics)는 계산 언어학(computational linguistics)의 국제 학회를 자처하지만, 현재는 자연어 처리를 지향하는 연구가 많은 부분을 차지한다[16]

7. 학회

계량국어학회는 한국의 전산언어학 관련 학회이다.[20] 전산언어학회(ACL)는 이 분야에서 가장 권위 있는 국제 학회이며, 국제 전산언어학 위원회(ICCL)와 함께 공동 설립되었다.[2]

7. 1. 한국

계량국어학회는 한국의 전산언어학 관련 학회이다.[20]

7. 2. 국제

전산언어학회(ACL)는 이 분야에서 가장 권위 있는 국제 학회이다.[2] 국제 전산언어학 위원회(ICCL)는 전산언어학회(ACL)와 함께 공동 설립되었다.[2]

참조

[1] 논문 Retrospect and prospect in computer-based translation http://www.hutchinsw[...] Proceedings of MT Summit VII 1999
[2] 웹사이트 Deceased members https://web.archive.[...] 2017-11-15
[3] 문서 Natural Language Processing http://www-nlpir.nis[...]
[4] 문서 Translating Machine 1975: And the Changes To Come https://www.flickr.c[...]
[5] 논문 Building a large annotated corpus of English: The Penn Treebank https://www.aclweb.o[...]
[6] 서적 Treebanks Spring Netherlands 2003
[7] 논문 Lognormality of the Distribution of Japanese Sentence Lengths
[8] 논문 The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals http://pubman.mpdl.m[...]
[9] 서적 On two types of models of the internalization of grammars Academic Press
[10] 서적 Machine Learning of Natural Language Springer-Verlag
[11] 논문 Learning and development in neural networks: The importance of starting small
[12] 논문 Language bootstrapping: learning word meanings from the perception-action association
[13] 논문 Studying Language Change Using Price Equation and Pólya-urn Dynamics
[14] 간행물 Insight to Computational Linguistics https://d1wqtxts1xzl[...] 2016-09-22
[15] 간행물 Insight to Computational Linguistics https://d1wqtxts1xzl[...] 2016-09-22
[16] 서적 (추정: 책 제목 필요)
[17] 서적 (추정: 책 제목 필요)
[18] 서적 (추정: 책 제목 필요)
[19] 서적 (추정: 책 제목 필요)
[20] 문서 (추정: 제목 필요)



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com