말뭉치

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

말뭉치는 언어 연구를 위해 수집된 대규모 텍스트 모음이다. 말뭉치는 단일 언어 또는 여러 언어로 구성될 수 있으며, 텍스트의 종류에 따라 생 말뭉치, 균형 말뭉치, 병렬 말뭉치 등으로 분류된다. 말뭉치는 언어 기술, 자연어 처리, 기계 번역, 문헌학 등 다양한 분야에서 활용되며, 품사 태깅, 기계 번역 알고리즘 훈련 등에 사용된다. 주요 말뭉치로는 구글 엔그램 말뭉치, 미국 국립 코퍼스, 브라운 코퍼스 등이 있으며, 다양한 언어의 말뭉치가 존재한다.

말뭉치
📚 더 읽어볼만한 페이지
  • 말뭉치언어학 - 토픽 모델
    토픽 모델은 텍스트 데이터에서 문서의 주제를 찾기 위해 사용되는 통계적 모델링 방법으로, 잠재 의미 분석(LSI)에서 잠재 디리클레 할당(LDA)까지 다양한 모델이 개발되어 텍스트 데이터 분석 외 여러 분야에 응용되며, Mallet, Gensim 등의 도구로 사용 가능하다.
  • 말뭉치언어학 - N-그램
    N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.
  • 전문가의 참여가 필요한 문서 - 클릭당 지불
    클릭당 지불 광고는 광고주가 광고 클릭당 비용을 지불하는 온라인 광고 방식으로, 정액제와 입찰 기반 모델이 있으며 검색엔진 결과 페이지 등에 게재되고 키워드 매칭, 광고 품질, 실시간 입찰 등이 노출 순위에 영향을 미치며 클릭 사기 등의 문제점도 존재하지만 인공지능 기반 타겟팅 기술과 함께 진화하고 있다.
  • 전문가의 참여가 필요한 문서 - 코넬 웨스트
    코넬 웨스트는 하버드와 프린스턴에서 철학 박사 학위를 받고 여러 대학에서 교수로 재직한 미국의 철학자, 작가, 사회 활동가, 공공 지식인으로, 진보적 사회 운동에 참여하며 미국의 인종, 정치, 경제 문제에 대한 비판적 시각을 견지하고 2024년 미국 대통령 선거에 무소속으로 출마하기도 했다.
  • 언어학 - 에스놀로그
    에스놀로그는 세계 언어에 대한 정보를 제공하는 데이터베이스이며, 7,000개 이상의 언어에 대한 정보를 담고 있으며, 언어의 명칭, 화자 수, 지리적 분포, 언어 계통 등을 포함한다.
  • 언어학 - 프롬프트 엔지니어링
    프롬프트 엔지니어링은 대규모 언어 모델이 원하는 작업을 정확히 수행하도록 지시사항, 맥락, 입력 데이터 등을 조합하여 최적화된 프롬프트를 설계하는 방법론으로, 컨텍스트 내 학습을 통해 모델의 창발적 능력을 활용하며 텍스트, 이미지, 코드 생성 등 다양한 분야에서 모델 성능 향상에 기여한다.

2. 말뭉치의 종류

말뭉치는 사용되는 언어의 수와 주석 여부에 따라 여러 종류로 나눌 수 있다.

* 언어의 수에 따른 분류

👆
좌우로 밀어서 보기
종류설명
단일 언어 말뭉치하나의 언어로 된 텍스트를 포함한다.
다중 언어 말뭉치여러 언어의 텍스트를 포함한다.


* 주석 여부에 따른 분류

👆
좌우로 밀어서 보기
종류설명
생(生) 말뭉치별도의 언어적 주석 없이 텍스트를 모아 놓은 것이다.
태그 부착 말뭉치텍스트에 언어적 주석이 추가된 형태이다. 품사 태깅된 말뭉치, 구문 분석된 말뭉치 등이 있다.


이 외에도, 브라운 코퍼스처럼 다양한 장르의 텍스트를 균형 있게 수집한 균형 말뭉치가 있다.

2.1. 단일 언어 말뭉치와 다중 언어 말뭉치

말뭉치는 단일 언어 말뭉치다중 언어 말뭉치로 나눌 수 있다. 단일 언어 말뭉치는 하나의 언어로 된 텍스트를 포함하며, 다중 언어 말뭉치는 여러 언어의 텍스트를 포함한다. 다중 언어 말뭉치 중에서도 여러 언어 간의 비교를 위해 특별히 형태를 갖춘 것을 '정렬된 병렬 말뭉치(aligned parallel corpora)'라고 한다.

번역 관계로 짝을 이룬 문서들을 모은 말뭉치는 대역 말뭉치 또는 병렬 말뭉치라고 부른다. 특정 주제에 대해 다루는 대역 말뭉치는 비교 가능 말뭉치라고 한다. 다양한 장르의 텍스트를 균형 있게 모은 것은 균형 말뭉치, 단순히 문서를 모으기만 한 것은 생 말뭉치라고 부른다.

2.2. 정렬된 병렬 말뭉치

언어학에서 여러 언어 간의 비교를 위해 특별히 형태화된 다중언어 말뭉치는 '정렬된 병렬 말뭉치(aligned parallel corpora)'라고 한다. 기계 번역에서 나란히 비교할 수 있도록 특별히 형식이 지정된 다국어 말뭉치도 정렬된 병렬 말뭉치라고 한다.

번역 관계에 있는 두 문서 쌍을 수집한 코퍼스를 대역 코퍼스(bilingual corpus) 또는 병렬 코퍼스(parallel corpus)라고 한다. 병렬 텍스트를 활용하려면 등가 텍스트 세그먼트(구 또는 문장)를 식별하는 일종의 텍스트 정렬이 분석의 필수 조건이다. 두 언어 간 번역을 위한 기계 번역 알고리즘은 종종 첫 번째 언어 말뭉치와 첫 번째 언어 말뭉치의 요소별 번역인 두 번째 언어 말뭉치로 구성된 병렬 구절을 사용하여 훈련된다.

2.3. 생(生) 말뭉치와 태그 부착 말뭉치

말뭉치는 크게 생(生) 말뭉치태그 부착 말뭉치로 나눌 수 있다.

생 말뭉치는 단순히 텍스트를 모아 놓은 것으로, 별도의 언어적 주석이 추가되지 않은 상태이다. 브라운 코퍼스와 같이 다양한 장르의 텍스트를 균형 있게 수집한 것을 균형 말뭉치라고 한다. 번역 관계에 있는 두 문서 쌍을 수집한 코퍼스를 대역 코퍼스(병렬 코퍼스)라고 하며, 특정 주제에 관한 대역 코퍼스를 비교 가능 코퍼스라고 한다.

반면, 태그 부착 말뭉치는 텍스트에 언어적 주석이 추가된 형태이다.

2.3.1. 품사 태깅된 말뭉치

언어학 연구를 더 효과적으로 하기 위해, 말뭉치는 종종 주석 과정을 거친다. 말뭉치 주석의 한 예로, 각 단어의 품사 (동사, 명사, 형용사 등)에 대한 정보를 '태그' 형태로 말뭉치에 추가하는 품사 태깅이 있다. 이 과정을 거친 말뭉치를 주석 부착 말뭉치 (annotated corpus) 또는 태그 부착 말뭉치 (tagged corpus)라고 한다. 또 다른 예로는 각 단어의 표제어 (기본형)를 표시하는 것이 있다. 말뭉치의 언어가 이를 사용하는 연구자의 사용 언어가 아닌 경우, 주석을 이중 언어로 만들기 위해 자구 통역이 사용된다.

2.3.2. 구문 분석된 말뭉치

어떤 말뭉치는 한층 더 구조적인 수준의 분석이 적용된다. 특히, 많은 소 말뭉치는 구문 분석이 완전히 이루어질 수 있다. 그러한 말뭉치들은 트리뱅크 또는 분석된 말뭉치(parsed corpora)라고 한다. 모든 말뭉치에 완전하고 일관적으로 주석을 달기 어려우므로 이러한 말뭉치는 더 작으며 약 백만 내지 3백만 단어를 포함하고 있다. 형태론, 의미론 또는 화용론적 주석을 포함하는 다른 수준의 언어학적 구조 분석이 가능하다.

3. 말뭉치의 활용

말뭉치 언어학의 주요 지식 기반인 말뭉치는 다양한 분야에서 활용된다.

* 언어 기술, 자연어 처리, 전산 언어학: 전산 언어학, 음성 인식, 기계 번역 분야에서 다양한 유형의 말뭉치 분석 및 처리가 연구되고 있다. 은닉 마르코프 모델을 활용하여 품사 태깅 등에 사용된다. 빈도 목록과 함께 언어 교육에 활용되며, 외국어 작문 보조 도구로도 사용된다.
* 기계 번역: 여러 언어로 된 정렬된 병렬 말뭉치가 사용된다. 병렬 말뭉치에는 한 언어의 텍스트를 다른 언어로 번역한 번역 말뭉치와, 동일한 종류와 내용을 다루지만 번역은 아닌 비교 가능한 말뭉치가 있다. 기계 번역 알고리즘 훈련에는 한 언어와 그 언어의 요소별 번역으로 구성된 병렬 구절을 가진 두 언어 말뭉치가 사용된다.
* 문헌학: 고대 문서 연구, 고대 문자 해독, 성서 연구 등에 사용된다. 짧은 기간의 시대상을 반영하는 고고학적 말뭉치도 있다. 예를 들어 15~30년 된 아마르나 서한 텍스트(기원전 1350년)나 터키의 퀼테페 텍스트 등이 있다.

4. 주요 말뭉치

* 영어 말뭉치
[[구글]] 엔그램 말뭉치 - 155,000,000,000 단어수로 구성된 가장 큰 영어 말뭉치이다. 다른 언어 말뭉치도 구성되어 있다.
미국 국립 코퍼스 (American National Corpus)
Bank of English
British National Corpus
법학 말뭉치 (Corpus Juris Secundum)
현대미국영어 말뭉치 (COCA) - 1990~2011년 동안의 425,000,000 단어로 구성되어 있으며, 무료 온라인 검색 서비스를 제공한다.
브라운 코퍼스(Brown Corpus) - LOB, 찡그린 얼굴과 F-LOB와 함께 "브라운 가족"(Brown Family)이라는 말뭉치를 구성한다.
국제 영어 코퍼스
옥스포드 영어 코퍼스
스코틀랜드 텍스트 및 음성 코퍼스

* 기타 언어 말뭉치
유럽 언어

👆
좌우로 밀어서 보기
언어말뭉치명설명
불가리아어불가리아 국립 코퍼스(http://search.dcl.bas.bg)
포르투갈어CETENFolha
크로아티아어크로아티아어 코퍼스
크로아티아어크로아티아 국립 코퍼스
체코어체코 국립 코퍼스
러시아어러시아 국립 코퍼스(http://ruscorpora.ru)
슬로베니아어슬로베니아어 국립 코퍼스
고대 그리스어동의어 Linguae Graecae 사전
아르메니아어동 아르메니아 국립 코퍼스 (EANC)110,000,000 단어. 무료 온라인 검색 서비스 제공.
폴란드어폴란드 국립 코퍼스
독일어독일어 참조 코퍼스 (DeReKo)4,000,000,000억 이상의 단어수의 현대 문어 독일어 말뭉치.
스페인어스페인어 텍스트 말뭉치저작자는 몰 리노 데 아이디어. 660 백만 단어 포함.
리투아니아어CorALit : 리투아니아 학술 코퍼스1999년 ~ 2009년 (약 900 만 단어)에 발표 된 학술 텍스트로 구성. 빌 뉴스 대학교, 리투아니아에서 편찬.
터키어터키 국립 코퍼스


중동 언어 말뭉치
👆
좌우로 밀어서 보기
언어말뭉치명설명
페르시아어Hamshahri 코퍼스
아카드어, 이집트어, 수메르어아마르나의 서한
페르시아어TEP: 테헤란 영어 - 페르시아어 병렬 코퍼스
페르시아어TMC: 테헤란 단일 언어 코퍼스페르시아어 언어모델링에 대한 표준 말뭉치
페르시아어Bijankhan 코퍼스NLP의 연구에 대한 현대 페르시아 코퍼스
신 아시리아어신 아시리아어 텍스트 코퍼스 프로젝트
고전 아랍어쿠란 아랍어 코퍼스


병렬 코퍼스
👆
좌우로 밀어서 보기
말뭉치명설명
http://opus.lingfil.uu.se/ OPUS많은 언어의 오픈 소스 병렬 코퍼스
Tatoeba122 언어의 2,288,000개 문장 포함하는 병렬 말뭉치.
https://web.archive.org/web/20140116120131/http://www.colips.org/journal/volume22/22.4.2.NTU-MC%20Tan%20final.pdf NTU - 다국어 코퍼스7 개 언어 (아랍어, 영어, 이디어, 일본어, 한국어, MCN, 베트남어)


** 동아시아 언어
* http://www.kotonoha.gr.jp/shonagon/ 코토노하 일본어 코퍼스

5. 같이 보기

* 말뭉치 언어학
* 말뭉치 태깅
* 자연 언어 처리
* 지프의 법칙
* 단발어