병렬말뭉치

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

병렬 말뭉치는 두 개 이상의 언어로 된 동일한 텍스트의 번역을 포함하며, 문장 또는 구 단위로 정렬된 텍스트 쌍으로 구성된다. 병렬 말뭉치는 완벽하게 정렬되지 않거나 품질이 낮은 번역을 포함하는 '노이즈 병렬 말뭉치', 문장 정렬은 없지만 주제가 일치하는 '비교 가능 말뭉치', 주제 일치 여부가 불분명한 '유사 비교 가능 말뭉치' 등으로 분류된다. 이러한 말뭉치는 기계 번역 알고리즘 훈련, 번역 작업 지원 등에 활용되며, 병렬 텍스트 데이터베이스 또는 이중 언어 말뭉치로도 불린다. 병렬 말뭉치와 유사한 번역 기억은 원래 문장의 순서를 유지한다는 점에서 차이가 있으며, 유럽 연합의 JRC-Acquis 다국어 병렬 말뭉치, 유럽 의회 회의록 병렬 말뭉치, OPUS 프로젝트 등이 대표적인 예시이다. 병렬 텍스트를 자동으로 정렬하는 데 사용되는 다양한 정렬 도구들이 개발되어 왔다.

병렬말뭉치

개요

유형	텍스트 데이터
하위 유형	병렬 말뭉치 비교 말뭉치
설명	원문 텍스트와 하나 이상의 번역문을 나란히 배열한 것

상세 내용

목표	기계 번역 시스템 훈련 언어학 연구 번역가 지원
구조	원문과 번역문이 문장 또는 단어 수준에서 정렬됨
획득 방법	기존 번역문 활용 전문 번역가에 의한 생성
장점	번역 품질 향상 언어 간 관계 연구 용이 번역 교육 자료로 활용 가능
단점	구축 비용이 많이 소요 정렬 오류 발생 가능성 특정 분야에 편향될 수 있음

활용 분야

기계 번역	통계 기반 기계 번역 신경망 기계 번역
전산 언어학	대조 언어학 연구 언어 보편성 연구
번역학	번역 전략 연구 번역 품질 평가
언어 교육	외국어 학습 자료 번역 연습 자료

추가 정보

예시	성경, 유럽 연합 문서, 영화 자막
관련 기술	단어 정렬 문장 정렬 기계 학습

📚 더 읽어볼만한 페이지

말뭉치언어학 - 토픽 모델
토픽 모델은 텍스트 데이터에서 문서의 주제를 찾기 위해 사용되는 통계적 모델링 방법으로, 잠재 의미 분석(LSI)에서 잠재 디리클레 할당(LDA)까지 다양한 모델이 개발되어 텍스트 데이터 분석 외 여러 분야에 응용되며, Mallet, Gensim 등의 도구로 사용 가능하다.
말뭉치언어학 - N-그램
N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.
언어학 - 에스놀로그
에스놀로그는 세계 언어에 대한 정보를 제공하는 데이터베이스이며, 7,000개 이상의 언어에 대한 정보를 담고 있으며, 언어의 명칭, 화자 수, 지리적 분포, 언어 계통 등을 포함한다.
언어학 - 프롬프트 엔지니어링
프롬프트 엔지니어링은 대규모 언어 모델이 원하는 작업을 정확히 수행하도록 지시사항, 맥락, 입력 데이터 등을 조합하여 최적화된 프롬프트를 설계하는 방법론으로, 컨텍스트 내 학습을 통해 모델의 창발적 능력을 활용하며 텍스트, 이미지, 코드 생성 등 다양한 분야에서 모델 성능 향상에 기여한다.

1. 개요
2. 병렬 말뭉치의 유형
3. 병렬 말뭉치의 노이즈 (Noise in corpora)
4. 병렬 텍스트 (Bitext)
- 4.1. 병렬 텍스트와 번역 메모리 (Bitexts and translation memories)
5. 대표적인 병렬 말뭉치
6. 정렬 도구 (Alignment tools)

2. 병렬 말뭉치의 유형

병렬 말뭉치는 크게 네 가지 범주로 분류할 수 있다.

* 병렬 말뭉치: 두 개 이상의 언어로 된 동일 문서의 번역본을 포함하며, 최소한 문장 수준에서 정렬된다.
* 노이즈 병렬 말뭉치: 완벽하게 정렬되지 않거나 품질이 낮은 번역을 포함하는 이중 언어 문장을 포함한다.
* 비교 가능 말뭉치: 문장 정렬이 되지 않고 번역되지 않은 이중 언어 문서로 구성되지만, 문서의 주제는 정렬되어 있다.
* 유사 비교 가능 말뭉치: 주제가 정렬되었을 수도 있고 그렇지 않을 수도 있는 매우 이질적이고 병렬적이지 않은 이중 언어 문서를 포함한다.

2.1. 병렬 말뭉치 (Parallel corpora)

두 개 이상의 언어로 된 동일 문서의 번역을 포함하며, 최소한 문장 수준에서 정렬된다. 이러한 유형은 덜 비교 가능한 말뭉치보다 드문 경향이 있다.

2.2. 노이즈 병렬 말뭉치 (Noisy parallel corpora)

노이즈 병렬 말뭉치는 완벽하게 정렬되지 않거나 번역 품질이 낮은 텍스트 쌍을 포함하지만, 내용의 대부분은 특정 문서의 이중 언어 번역본으로 구성된다.

2.3. 비교 가능한 말뭉치 (Comparable corpora)

비교 가능한 말뭉치는 문장이 정렬되지 않고 번역되지 않은 이중 언어 문서로 구성되지만, 문서의 주제는 정렬되어 있다. 이러한 말뭉치는 서로 다른 언어로 작성되었지만, 동일한 주제나 내용을 다루는 텍스트들로 구성된다.

2.4. 유사 비교 가능한 말뭉치 (Quasi-comparable corpora)

유사 비교 가능 말뭉치는 매우 이질적이고 병렬성이 낮은 이중 언어 문서들을 포함하며, 주제가 정렬되어 있을 수도 있고 그렇지 않을 수도 있다.

3. 병렬 말뭉치의 노이즈 (Noise in corpora)

기계 번역 알고리즘 훈련에 사용되는 대규모 말뭉치는 주로 비슷한 사건을 다루는 뉴스 기사 데이터베이스처럼 규모가 크고 유사한 소스에서 추출된다. 이러한 소스는 첫 번째 언어와 두 번째 언어로 작성된 기사를 포함한다.

그러나 추출 과정에서 각 말뭉치에 불필요한 요소가 추가되어 노이즈가 발생할 수 있다. 추출 기술은 두 말뭉치 모두에 나타나는 이중 언어 요소와 하나의 말뭉치에만 나타나는 단일 언어 요소를 구별하여, 이중 언어 요소로 구성된 더 깨끗한 병렬 데이터를 추출할 수 있다. 비교 가능한 말뭉치는 번역을 위한 지식을 직접 얻는 데 활용된다. 하지만, 특히 자원이 부족한 언어의 경우 고품질 병렬 데이터를 확보하는 것은 어려운 과제이다.

4. 병렬 텍스트 (Bitext)

번역학에서 병렬 텍스트는 원본 언어 텍스트와 대상 언어 텍스트가 모두 포함된 문서를 의미한다.

병렬 텍스트는 '정렬 도구' 또는 '병렬 텍스트 도구'라는 소프트웨어로 생성되며, 원본 텍스트와 번역본을 자동으로 정렬한다. 이 도구는 보통 문장 단위로 두 텍스트를 짝지어 준다. 이러한 병렬 텍스트 모음은 '병렬 텍스트 데이터베이스' 또는 '이중 언어 말뭉치'라고 불리며, 검색 도구를 통해 참조할 수 있다.

4.1. 병렬 텍스트와 번역 메모리 (Bitexts and translation memories)

번역학에서 병렬 텍스트는 원본 텍스트와 그 텍스트를 번역한 버전이 함께 포함된 문서를 말한다. 병렬 텍스트는 '정렬 도구' 또는 '병렬 텍스트 도구'라는 소프트웨어를 통해 만들어지는데, 이 도구는 원본 텍스트와 번역된 텍스트를 자동으로 맞춰준다. 보통 문장 단위로 짝을 맞춘다. 이렇게 모아놓은 병렬 텍스트는 '병렬 텍스트 데이터베이스' 또는 '이중 언어 말뭉치'라고 부르며, 검색 도구를 통해 찾아볼 수 있다.

병렬 말뭉치는 번역 기억과 비슷한 점이 몇 가지 있다. 가장 큰 차이점은 번역 기억은 원래 문맥을 잃어버리지만, 병렬 말뭉치는 원래 문장 순서를 그대로 유지한다는 것이다. 하지만 컴퓨터 지원 번역(CAT) 프로그램 간 번역 기억 교환을 위한 표준 XML 형식인 번역 기억 eXchange(TMX)와 같은 일부 번역 기억은 원래 문장 순서를 유지할 수도 있다.

병렬 말뭉치는 기계 번역이 아닌, 사람이 직접 번역할 때 참고하기 위해 만들어졌다. 따라서 번역 기억에서는 문제가 될 수 있는 작은 정렬 오류나 사소한 불일치는 크게 중요하지 않다.

1988년 해리스(Harris)의 초기 연구에서는 병렬 말뭉치가 번역가가 번역 작업을 하면서 원본 텍스트와 번역된 텍스트를 머릿속에서 어떻게 함께 유지하는지를 보여준다고 가정했다. 그러나 이 가설에 대한 후속 연구는 진행되지 않았다.

온라인 병렬 말뭉치와 번역 기억은 온라인 이중 언어 일치라고도 불린다. 링구, 레베르소, Tradooit 등 여러 서비스가 인터넷에서 공개되어 있다.

5. 대표적인 병렬 말뭉치

다양한 기관 및 프로젝트에서 병렬 말뭉치를 구축 및 제공하고 있다. 대표적인 병렬 말뭉치는 다음과 같다:

👆

좌우로 밀어서 보기

유형	이름	설명
국제기구 및 정부	유럽 연합 (EU) 법	[https://web.archive.org/web/20060619034515/http://langtech.jrc.it/JRC-Acquis.html JRC-Acquis 다국어 병렬 말뭉치]: Acquis Communautaire 231개의 언어 쌍.
국제기구 및 정부	유럽 의회	[http://www.statmt.org/europarl/ 유럽 의회 회의록 병렬 말뭉치 1996–2011]
국제기구 및 정부	누나부트 준주	[https://web.archive.org/web/20070707091815/http://www.inuktitutcomputing.ca/NunavutHansard/en/ 누나부트 한사드 – 영어/이누이트어 병렬 말뭉치]
국제기구 및 정부	EUR-Lex	[https://www.sketchengine.eu/eurlex-corpus/ EUR-Lex 말뭉치]: 유럽 연합법과 유럽 연합의 기타 공공 문서로 구성
국제기구 및 정부	Language Grid	[http://langrid.org Language Grid]: 병렬 텍스트 서비스를 포함하는 다국어 서비스 플랫폼
학술 및 연구 프로젝트	오푸스 프로젝트	자유롭게 이용 가능한 병렬 말뭉치를 수집
학술 및 연구 프로젝트	위키백과	위키백과의 교토 기사 일본어-영어 이중 언어 말뭉치
학술 및 연구 프로젝트	COMPARA	포르투갈어/영어 병렬 말뭉치
학술 및 연구 프로젝트	ParaSol	슬라브어 및 기타 언어 병렬 말뭉치
학술 및 연구 프로젝트	InterCorp	체코어와 정렬된 40개 언어를 포함하는 다국어 병렬 말뭉치
기타	TERMSEARCH	영어, 러시아어, 프랑스어 병렬 말뭉치 (주요 국제 조약, 협약, 협정 등)
기타	TradooIT	영어, 프랑스어, 스페인어 병렬 말뭉치 및 온라인 도구 제공
기타	글로스베	다국어 병렬 말뭉치 및 온라인 검색 인터페이스 제공
기타	Olanto	JCR 및 UNO 말뭉치 온라인 검색 기능을 제공하는 일치 검색기 (오픈 소스 AGPL)
기타	TAUS	온라인 검색 인터페이스 제공
기타	linguatools	다국어 병렬 말뭉치 및 온라인 검색 인터페이스 제공

5.1. 국제기구 및 정부

* 유럽 연합 (EU) 법 전체의 [https://web.archive.org/web/20060619034515/http://langtech.jrc.it/JRC-Acquis.html JRC-Acquis 다국어 병렬 말뭉치]: Acquis Communautaire 231개의 언어 쌍.
* [http://www.statmt.org/europarl/ 유럽 의회 회의록 병렬 말뭉치 1996–2011]
* [https://web.archive.org/web/20070707091815/http://www.inuktitutcomputing.ca/NunavutHansard/en/ 누나부트 한사드 – 영어/이누이트어 병렬 말뭉치]: 캐나다 누나부트 준주의 의회 회의록을 영어와 이누이트어로 제공한다.
* [https://www.sketchengine.eu/eurlex-corpus/ EUR-Lex 말뭉치 – EUR-Lex 데이터베이스로 구축된 말뭉치]는 유럽 연합법과 유럽 연합의 기타 공공 문서로 구성되어 있다.
* [http://langrid.org Language Grid – 병렬 텍스트 서비스를 포함하는 다국어 서비스 플랫폼]

5.2. 학술 및 연구 프로젝트

* 오푸스 프로젝트는 자유롭게 이용 가능한 병렬 말뭉치를 수집하는 것을 목표로 한다.
* 위키백과의 교토 기사 일본어-영어 이중 언어 말뭉치가 있다.
* COMPARA는 포르투갈어/영어 병렬 말뭉치이다.
* ParaSol은 슬라브어 및 기타 언어 병렬 말뭉치이다.
* InterCorp는 체코어와 정렬된 40개 언어를 포함하는 다국어 병렬 말뭉치이다.
* Language Grid는 병렬 텍스트 서비스를 포함하는 다국어 서비스 플랫폼이다.

5.3. 기타

* http://www.termsearch.info TERMSEARCH – 영어, 러시아어, 프랑스어 병렬 말뭉치 (주요 국제 조약, 협약, 협정 등)
* http://www.tradooit.com TradooIT – 영어, 프랑스어, 스페인어 병렬 말뭉치 및 온라인 도구 제공
* https://glosbe.com/tmem 글로스베: 다국어 병렬 말뭉치 및 온라인 검색 인터페이스 제공
* http://olanto.org/ myCAT – Olanto - JCR 및 UNO 말뭉치 온라인 검색 기능을 제공하는 일치 검색기 (오픈 소스 AGPL)
* http://www.translationautomation.com/ TAUS - 온라인 검색 인터페이스 제공
* http://www.linguatools.com/ linguatools - 다국어 병렬 말뭉치 및 온라인 검색 인터페이스 제공
* https://www.sketchengine.eu/eurlex-corpus/ EUR-Lex 말뭉치 – EUR-Lex 데이터베이스 기반으로 구축되었으며, 유럽 연합법과 유럽 연합의 기타 공공 문서로 구성됨

6. 정렬 도구 (Alignment tools)

* GIZA++ (1999)
* Uplug (2003)
* Gale과 Church 문장 정렬 알고리즘 구현 (2005)
* Hunalign (2005)
* Champollion (2006)
* mALIGNa (2008–2020)
* Gargantua (2010)
* Bleualign (2010)
* YASA (2013)
* 계층적 정렬 도구 (HAT) (2018)
* Vecalign (2019)
* 그르노블 대학교의 웹 정렬 도구