맨위로가기 타임라인 바로가기

말뭉치

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
타임라인 바로가기

1. 개요

말뭉치는 언어 연구를 위해 수집된 대규모 텍스트 모음이다. 말뭉치는 단일 언어 또는 여러 언어로 구성될 수 있으며, 텍스트의 종류에 따라 생 말뭉치, 균형 말뭉치, 병렬 말뭉치 등으로 분류된다. 말뭉치는 언어 기술, 자연어 처리, 기계 번역, 문헌학 등 다양한 분야에서 활용되며, 품사 태깅, 기계 번역 알고리즘 훈련 등에 사용된다. 주요 말뭉치로는 구글 엔그램 말뭉치, 미국 국립 코퍼스, 브라운 코퍼스 등이 있으며, 다양한 언어의 말뭉치가 존재한다.

2. 말뭉치의 종류

말뭉치는 사용되는 언어의 수와 주석 여부에 따라 여러 종류로 나눌 수 있다.


  • 언어의 수에 따른 분류


종류설명
단일 언어 말뭉치하나의 언어로 된 텍스트를 포함한다.
다중 언어 말뭉치여러 언어의 텍스트를 포함한다.


  • 주석 여부에 따른 분류


종류설명
생(生) 말뭉치별도의 언어적 주석 없이 텍스트를 모아 놓은 것이다.
태그 부착 말뭉치텍스트에 언어적 주석이 추가된 형태이다. 품사 태깅된 말뭉치, 구문 분석된 말뭉치 등이 있다.



이 외에도, 브라운 코퍼스처럼 다양한 장르의 텍스트를 균형 있게 수집한 균형 말뭉치가 있다.

2. 1. 단일 언어 말뭉치와 다중 언어 말뭉치

말뭉치는 단일 언어 말뭉치다중 언어 말뭉치로 나눌 수 있다. 단일 언어 말뭉치는 하나의 언어로 된 텍스트를 포함하며, 다중 언어 말뭉치는 여러 언어의 텍스트를 포함한다.[4] 다중 언어 말뭉치 중에서도 여러 언어 간의 비교를 위해 특별히 형태를 갖춘 것을 '정렬된 병렬 말뭉치(aligned parallel corpora)'라고 한다.

번역 관계로 짝을 이룬 문서들을 모은 말뭉치는 대역 말뭉치 또는 병렬 말뭉치라고 부른다. 특정 주제에 대해 다루는 대역 말뭉치는 비교 가능 말뭉치라고 한다. 다양한 장르의 텍스트를 균형 있게 모은 것은 균형 말뭉치, 단순히 문서를 모으기만 한 것은 생 말뭉치라고 부른다.

2. 2. 정렬된 병렬 말뭉치

언어학에서 여러 언어 간의 비교를 위해 특별히 형태화된 다중언어 말뭉치는 '정렬된 병렬 말뭉치(aligned parallel corpora)'라고 한다.[4] 기계 번역에서 나란히 비교할 수 있도록 특별히 형식이 지정된 다국어 말뭉치도 ''정렬된 병렬 말뭉치''라고 한다.[2]

번역 관계에 있는 두 문서 쌍을 수집한 코퍼스를 '''대역 코퍼스'''(bilingual corpus) 또는 '''병렬 코퍼스'''(parallel corpus)라고 한다.[3] 병렬 텍스트를 활용하려면 등가 텍스트 세그먼트(구 또는 문장)를 식별하는 일종의 텍스트 정렬이 분석의 필수 조건이다. 두 언어 간 번역을 위한 기계 번역 알고리즘은 종종 첫 번째 언어 말뭉치와 첫 번째 언어 말뭉치의 요소별 번역인 두 번째 언어 말뭉치로 구성된 병렬 구절을 사용하여 훈련된다.

2. 3. 생(生) 말뭉치와 태그 부착 말뭉치

말뭉치는 크게 생(生) 말뭉치태그 부착 말뭉치로 나눌 수 있다.

생 말뭉치는 단순히 텍스트를 모아 놓은 것으로, 별도의 언어적 주석이 추가되지 않은 상태이다.[4] 브라운 코퍼스와 같이 다양한 장르의 텍스트를 균형 있게 수집한 것을 균형 말뭉치라고 한다. 번역 관계에 있는 두 문서 쌍을 수집한 코퍼스를 대역 코퍼스(병렬 코퍼스)라고 하며, 특정 주제에 관한 대역 코퍼스를 비교 가능 코퍼스라고 한다.

반면, 태그 부착 말뭉치는 텍스트에 언어적 주석이 추가된 형태이다.

2. 3. 1. 품사 태깅된 말뭉치

언어학 연구를 더 효과적으로 하기 위해, 말뭉치는 종종 주석 과정을 거친다. 말뭉치 주석의 한 예로, 각 단어의 품사 (동사, 명사, 형용사 등)에 대한 정보를 '태그' 형태로 말뭉치에 추가하는 품사 태깅이 있다.[4] 이 과정을 거친 말뭉치를 '''주석 부착 말뭉치''' (annotated corpus) 또는 '''태그 부착 말뭉치''' (tagged corpus)라고 한다. 또 다른 예로는 각 단어의 표제어 (기본형)를 표시하는 것이 있다. 말뭉치의 언어가 이를 사용하는 연구자의 사용 언어가 아닌 경우, 주석을 이중 언어로 만들기 위해 자구 통역이 사용된다.

2. 3. 2. 구문 분석된 말뭉치

어떤 말뭉치는 한층 더 구조적인 수준의 분석이 적용된다. 특히, 많은 소 말뭉치는 구문 분석이 완전히 이루어질 수 있다. 그러한 말뭉치들은 트리뱅크 또는 분석된 말뭉치(parsed corpora)라고 한다. 모든 말뭉치에 완전하고 일관적으로 주석을 달기 어려우므로 이러한 말뭉치는 더 작으며 약 백만 내지 3백만 단어를 포함하고 있다. 형태론, 의미론 또는 화용론적 주석을 포함하는 다른 수준의 언어학적 구조 분석이 가능하다.

3. 말뭉치의 활용

말뭉치 언어학의 주요 지식 기반인 말뭉치는 다양한 분야에서 활용된다.


  • '''언어 기술, 자연어 처리, 전산 언어학''': 전산 언어학, 음성 인식, 기계 번역 분야에서 다양한 유형의 말뭉치 분석 및 처리가 연구되고 있다. 은닉 마르코프 모델을 활용하여 품사 태깅 등에 사용된다.[1] 빈도 목록과 함께 언어 교육에 활용되며, 외국어 작문 보조 도구로도 사용된다.[1]
  • '''기계 번역''': 여러 언어로 된 ''정렬된 병렬 말뭉치''가 사용된다. 병렬 말뭉치에는 한 언어의 텍스트를 다른 언어로 번역한 ''번역 말뭉치''와, 동일한 종류와 내용을 다루지만 번역은 아닌 ''비교 가능한 말뭉치''가 있다.[2] 기계 번역 알고리즘 훈련에는 한 언어와 그 언어의 요소별 번역으로 구성된 병렬 구절을 가진 두 언어 말뭉치가 사용된다.[3]
  • '''문헌학''': 고대 문서 연구, 고대 문자 해독, 성서 연구 등에 사용된다. 짧은 기간의 시대상을 반영하는 고고학적 말뭉치도 있다. 예를 들어 15~30년 된 아마르나 서한 텍스트(기원전 1350년)나 터키의 퀼테페 텍스트 등이 있다.

4. 주요 말뭉치


  • 영어 말뭉치

구글 엔그램 말뭉치 - 155,000,000,000 단어수로 구성된 가장 큰 영어 말뭉치이다. 다른 언어 말뭉치도 구성되어 있다.

  • * 미국 국립 코퍼스 (American National Corpus)
  • * Bank of English
  • * British National Corpus
  • * 법학 말뭉치 (Corpus Juris Secundum)
  • * 현대미국영어 말뭉치 (COCA) - 1990~2011년 동안의 425,000,000 단어로 구성되어 있으며, 무료 온라인 검색 서비스를 제공한다.
  • * 브라운 코퍼스(Brown Corpus) - LOB, 찡그린 얼굴과 F-LOB와 함께 "브라운 가족"(Brown Family)이라는 말뭉치를 구성한다.
  • * 국제 영어 코퍼스
  • * 옥스포드 영어 코퍼스
  • * 스코틀랜드 텍스트 및 음성 코퍼스

  • 기타 언어 말뭉치
  • * 유럽 언어

언어말뭉치명설명
불가리아어불가리아 국립 코퍼스(http://search.dcl.bas.bg)
포르투갈어CETENFolha
크로아티아어크로아티아어 코퍼스
크로아티아어크로아티아 국립 코퍼스
체코어체코 국립 코퍼스
러시아어러시아 국립 코퍼스(http://ruscorpora.ru)
슬로베니아어슬로베니아어 국립 코퍼스
고대 그리스어동의어 Linguae Graecae 사전
아르메니아어동 아르메니아 국립 코퍼스 (EANC)110,000,000 단어. 무료 온라인 검색 서비스 제공.
폴란드어폴란드 국립 코퍼스
독일어독일어 참조 코퍼스 (DeReKo)4,000,000,000억 이상의 단어수의 현대 문어 독일어 말뭉치.
스페인어스페인어 텍스트 말뭉치저작자는 몰 리노 데 아이디어. 660 백만 단어 포함.
리투아니아어CorALit : 리투아니아 학술 코퍼스1999년 ~ 2009년 (약 900 만 단어)에 발표 된 학술 텍스트로 구성. 빌 뉴스 대학교, 리투아니아에서 편찬.
터키어터키 국립 코퍼스


  • * 중동 언어 말뭉치

언어말뭉치명설명
페르시아어Hamshahri 코퍼스
아카드어, 이집트어, 수메르어아마르나의 서한
페르시아어TEP: 테헤란 영어 - 페르시아어 병렬 코퍼스
페르시아어TMC: 테헤란 단일 언어 코퍼스페르시아어 언어모델링에 대한 표준 말뭉치
페르시아어Bijankhan 코퍼스NLP의 연구에 대한 현대 페르시아 코퍼스
신 아시리아어신 아시리아어 텍스트 코퍼스 프로젝트
고전 아랍어쿠란 아랍어 코퍼스


  • * 병렬 코퍼스

말뭉치명설명
http://opus.lingfil.uu.se/ OPUS많은 언어의 오픈 소스 병렬 코퍼스
Tatoeba122 언어의 2,288,000개 문장 포함하는 병렬 말뭉치.[5]
https://web.archive.org/web/20140116120131/http://www.colips.org/journal/volume22/22.4.2.NTU-MC%20Tan%20final.pdf NTU - 다국어 코퍼스7 개 언어 (아랍어, 영어, 이디어, 일본어, 한국어, MCN, 베트남어)

5. 같이 보기

참조

[1] 논문 ESL Student Attitudes toward Corpus Use in L2 Writing https://citeseerx.is[...] 2004
[2] 서적 Real-Time Statistical Speech Translation Springer 2014-04-07
[3] 간행물 Text, Speech, and Dialogue – 18th International Conference, TSD 2015, Plzeň, Czech Republic, September 14–17, 2015, Proceedings Springer
[4] 웹인용 ESL Student Attitudes toward Corpus Use in L2 Writing http://englishteache[...] 2004
[5] 웹사이트 tatoeba statistics http://tatoeba.org/e[...]

관련 사건 타임라인

( 최근 20개의 뉴스만 표기 됩니다. )



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com