맨위로가기

병렬말뭉치

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

병렬 말뭉치는 두 개 이상의 언어로 된 동일한 텍스트의 번역을 포함하며, 문장 또는 구 단위로 정렬된 텍스트 쌍으로 구성된다. 병렬 말뭉치는 완벽하게 정렬되지 않거나 품질이 낮은 번역을 포함하는 '노이즈 병렬 말뭉치', 문장 정렬은 없지만 주제가 일치하는 '비교 가능 말뭉치', 주제 일치 여부가 불분명한 '유사 비교 가능 말뭉치' 등으로 분류된다. 이러한 말뭉치는 기계 번역 알고리즘 훈련, 번역 작업 지원 등에 활용되며, 병렬 텍스트 데이터베이스 또는 이중 언어 말뭉치로도 불린다. 병렬 말뭉치와 유사한 번역 기억은 원래 문장의 순서를 유지한다는 점에서 차이가 있으며, 유럽 연합의 JRC-Acquis 다국어 병렬 말뭉치, 유럽 의회 회의록 병렬 말뭉치, OPUS 프로젝트 등이 대표적인 예시이다. 병렬 텍스트를 자동으로 정렬하는 데 사용되는 다양한 정렬 도구들이 개발되어 왔다.

더 읽어볼만한 페이지

  • 말뭉치언어학 - 토픽 모델
    토픽 모델은 텍스트 데이터에서 문서의 주제를 찾기 위해 사용되는 통계적 모델링 방법으로, 잠재 의미 분석(LSI)에서 잠재 디리클레 할당(LDA)까지 다양한 모델이 개발되어 텍스트 데이터 분석 외 여러 분야에 응용되며, Mallet, Gensim 등의 도구로 사용 가능하다.
  • 말뭉치언어학 - N-그램
    N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.
  • 언어학 - 에스놀로그
    에스놀로그는 세계 언어에 대한 정보를 제공하는 데이터베이스이며, 7,000개 이상의 언어에 대한 정보를 담고 있으며, 언어의 명칭, 화자 수, 지리적 분포, 언어 계통 등을 포함한다.
  • 언어학 - 프롬프트 엔지니어링
    프롬프트 엔지니어링은 대규모 언어 모델이 원하는 작업을 정확히 수행하도록 지시사항, 맥락, 입력 데이터 등을 조합하여 최적화된 프롬프트를 설계하는 방법론으로, 컨텍스트 내 학습을 통해 모델의 창발적 능력을 활용하며 텍스트, 이미지, 코드 생성 등 다양한 분야에서 모델 성능 향상에 기여한다.
병렬말뭉치
개요
유형텍스트 데이터
하위 유형병렬 말뭉치
비교 말뭉치
설명원문 텍스트와 하나 이상의 번역문을 나란히 배열한 것
상세 내용
목표기계 번역 시스템 훈련
언어학 연구
번역가 지원
구조원문과 번역문이 문장 또는 단어 수준에서 정렬됨
획득 방법기존 번역문 활용
전문 번역가에 의한 생성
장점번역 품질 향상
언어 간 관계 연구 용이
번역 교육 자료로 활용 가능
단점구축 비용이 많이 소요
정렬 오류 발생 가능성
특정 분야에 편향될 수 있음
활용 분야
기계 번역통계 기반 기계 번역
신경망 기계 번역
전산 언어학대조 언어학 연구
언어 보편성 연구
번역학번역 전략 연구
번역 품질 평가
언어 교육외국어 학습 자료
번역 연습 자료
추가 정보
예시성경, 유럽 연합 문서, 영화 자막
관련 기술단어 정렬
문장 정렬
기계 학습

2. 병렬 말뭉치의 유형

병렬 말뭉치는 크게 네 가지 범주로 분류할 수 있다.[1]


  • '''병렬 말뭉치''': 두 개 이상의 언어로 된 동일 문서의 번역본을 포함하며, 최소한 문장 수준에서 정렬된다.
  • '''노이즈 병렬 말뭉치''': 완벽하게 정렬되지 않거나 품질이 낮은 번역을 포함하는 이중 언어 문장을 포함한다.
  • '''비교 가능 말뭉치''': 문장 정렬이 되지 않고 번역되지 않은 이중 언어 문서로 구성되지만, 문서의 주제는 정렬되어 있다.
  • '''유사 비교 가능 말뭉치''': 주제가 정렬되었을 수도 있고 그렇지 않을 수도 있는 매우 이질적이고 병렬적이지 않은 이중 언어 문서를 포함한다.

2. 1. 병렬 말뭉치 (Parallel corpora)

두 개 이상의 언어로 된 동일 문서의 번역을 포함하며, 최소한 문장 수준에서 정렬된다.[1] 이러한 유형은 덜 비교 가능한 말뭉치보다 드문 경향이 있다.

2. 2. 노이즈 병렬 말뭉치 (Noisy parallel corpora)

노이즈 병렬 말뭉치는 완벽하게 정렬되지 않거나 번역 품질이 낮은 텍스트 쌍을 포함하지만, 내용의 대부분은 특정 문서의 이중 언어 번역본으로 구성된다.[1]

2. 3. 비교 가능한 말뭉치 (Comparable corpora)

비교 가능한 말뭉치는 문장이 정렬되지 않고 번역되지 않은 이중 언어 문서로 구성되지만, 문서의 주제는 정렬되어 있다.[1] 이러한 말뭉치는 서로 다른 언어로 작성되었지만, 동일한 주제나 내용을 다루는 텍스트들로 구성된다.[1]

2. 4. 유사 비교 가능한 말뭉치 (Quasi-comparable corpora)

유사 비교 가능 말뭉치는 매우 이질적이고 병렬성이 낮은 이중 언어 문서들을 포함하며, 주제가 정렬되어 있을 수도 있고 그렇지 않을 수도 있다.[1]

3. 병렬 말뭉치의 노이즈 (Noise in corpora)

기계 번역 알고리즘 훈련에 사용되는 대규모 말뭉치는 주로 비슷한 사건을 다루는 뉴스 기사 데이터베이스처럼 규모가 크고 유사한 소스에서 추출된다. 이러한 소스는 첫 번째 언어와 두 번째 언어로 작성된 기사를 포함한다.

그러나 추출 과정에서 각 말뭉치에 불필요한 요소가 추가되어 노이즈가 발생할 수 있다. 추출 기술은 두 말뭉치 모두에 나타나는 이중 언어 요소와 하나의 말뭉치에만 나타나는 단일 언어 요소를 구별하여, 이중 언어 요소로 구성된 더 깨끗한 병렬 데이터를 추출할 수 있다. 비교 가능한 말뭉치는 번역을 위한 지식을 직접 얻는 데 활용된다. 하지만, 특히 자원이 부족한 언어의 경우 고품질 병렬 데이터를 확보하는 것은 어려운 과제이다.[4]

4. 병렬 텍스트 (Bitext)

번역학에서 '''병렬 텍스트'''는 원본 언어 텍스트와 대상 언어 텍스트가 모두 포함된 문서를 의미한다.

병렬 텍스트는 '정렬 도구' 또는 '병렬 텍스트 도구'라는 소프트웨어로 생성되며, 원본 텍스트와 번역본을 자동으로 정렬한다. 이 도구는 보통 문장 단위로 두 텍스트를 짝지어 준다. 이러한 병렬 텍스트 모음은 '병렬 텍스트 데이터베이스' 또는 '이중 언어 말뭉치'라고 불리며, 검색 도구를 통해 참조할 수 있다.

4. 1. 병렬 텍스트와 번역 메모리 (Bitexts and translation memories)

번역학에서 '''병렬 텍스트'''는 원본 텍스트와 그 텍스트를 번역한 버전이 함께 포함된 문서를 말한다. 병렬 텍스트는 '정렬 도구' 또는 '병렬 텍스트 도구'라는 소프트웨어를 통해 만들어지는데, 이 도구는 원본 텍스트와 번역된 텍스트를 자동으로 맞춰준다. 보통 문장 단위로 짝을 맞춘다. 이렇게 모아놓은 병렬 텍스트는 '병렬 텍스트 데이터베이스' 또는 '이중 언어 말뭉치'라고 부르며, 검색 도구를 통해 찾아볼 수 있다.

병렬 말뭉치는 번역 기억과 비슷한 점이 몇 가지 있다. 가장 큰 차이점은 번역 기억은 원래 문맥을 잃어버리지만, 병렬 말뭉치는 원래 문장 순서를 그대로 유지한다는 것이다. 하지만 컴퓨터 지원 번역(CAT) 프로그램 간 번역 기억 교환을 위한 표준 XML 형식인 번역 기억 eXchange(TMX)와 같은 일부 번역 기억은 원래 문장 순서를 유지할 수도 있다.

병렬 말뭉치는 기계 번역이 아닌, 사람이 직접 번역할 때 참고하기 위해 만들어졌다. 따라서 번역 기억에서는 문제가 될 수 있는 작은 정렬 오류나 사소한 불일치는 크게 중요하지 않다.

1988년 해리스(Harris)의 초기 연구에서는 병렬 말뭉치가 번역가가 번역 작업을 하면서 원본 텍스트와 번역된 텍스트를 머릿속에서 어떻게 함께 유지하는지를 보여준다고 가정했다. 그러나 이 가설에 대한 후속 연구는 진행되지 않았다.[5]

온라인 병렬 말뭉치와 번역 기억은 온라인 이중 언어 일치라고도 불린다. 링구, 레베르소, Tradooit 등 여러 서비스가 인터넷에서 공개되어 있다.[6][7][8]

5. 대표적인 병렬 말뭉치

다양한 기관 및 프로젝트에서 병렬 말뭉치를 구축 및 제공하고 있다. 대표적인 병렬 말뭉치는 다음과 같다:

유형이름설명
국제기구 및 정부유럽 연합 (EU) 법[https://web.archive.org/web/20060619034515/http://langtech.jrc.it/JRC-Acquis.html JRC-Acquis 다국어 병렬 말뭉치]: Acquis Communautaire 231개의 언어 쌍.[9]
국제기구 및 정부유럽 의회[http://www.statmt.org/europarl/ 유럽 의회 회의록 병렬 말뭉치 1996–2011]
국제기구 및 정부누나부트 준주[https://web.archive.org/web/20070707091815/http://www.inuktitutcomputing.ca/NunavutHansard/en/ 누나부트 한사드 – 영어/이누이트어 병렬 말뭉치]
국제기구 및 정부EUR-Lex[https://www.sketchengine.eu/eurlex-corpus/ EUR-Lex 말뭉치]: 유럽 연합법유럽 연합의 기타 공공 문서로 구성
국제기구 및 정부Language Grid[http://langrid.org Language Grid]: 병렬 텍스트 서비스를 포함하는 다국어 서비스 플랫폼
학술 및 연구 프로젝트오푸스 프로젝트자유롭게 이용 가능한 병렬 말뭉치를 수집
학술 및 연구 프로젝트위키백과위키백과의 교토 기사 일본어-영어 이중 언어 말뭉치
학술 및 연구 프로젝트COMPARA포르투갈어/영어 병렬 말뭉치
학술 및 연구 프로젝트ParaSol슬라브어 및 기타 언어 병렬 말뭉치
학술 및 연구 프로젝트InterCorp체코어와 정렬된 40개 언어를 포함하는 다국어 병렬 말뭉치
기타TERMSEARCH영어, 러시아어, 프랑스어 병렬 말뭉치 (주요 국제 조약, 협약, 협정 등)
기타TradooIT영어, 프랑스어, 스페인어 병렬 말뭉치 및 온라인 도구 제공
기타글로스베다국어 병렬 말뭉치 및 온라인 검색 인터페이스 제공
기타OlantoJCR 및 UNO 말뭉치 온라인 검색 기능을 제공하는 일치 검색기 (오픈 소스 AGPL)
기타TAUS온라인 검색 인터페이스 제공
기타linguatools다국어 병렬 말뭉치 및 온라인 검색 인터페이스 제공


5. 1. 국제기구 및 정부


  • 유럽 연합 (EU) 법 전체의 [https://web.archive.org/web/20060619034515/http://langtech.jrc.it/JRC-Acquis.html JRC-Acquis 다국어 병렬 말뭉치]: ''Acquis Communautaire'' 231개의 언어 쌍.[9]
  • [http://www.statmt.org/europarl/ 유럽 의회 회의록 병렬 말뭉치 1996–2011]
  • [https://web.archive.org/web/20070707091815/http://www.inuktitutcomputing.ca/NunavutHansard/en/ 누나부트 한사드 – 영어/이누이트어 병렬 말뭉치]: 캐나다 누나부트 준주의 의회 회의록을 영어이누이트어로 제공한다.
  • [https://www.sketchengine.eu/eurlex-corpus/ EUR-Lex 말뭉치 – EUR-Lex 데이터베이스로 구축된 말뭉치]는 유럽 연합법유럽 연합의 기타 공공 문서로 구성되어 있다.
  • [http://langrid.org Language Grid – 병렬 텍스트 서비스를 포함하는 다국어 서비스 플랫폼]

5. 2. 학술 및 연구 프로젝트


  • 오푸스 프로젝트는 자유롭게 이용 가능한 병렬 말뭉치를 수집하는 것을 목표로 한다.
  • 위키백과의 교토 기사 일본어-영어 이중 언어 말뭉치가 있다.
  • COMPARA는 포르투갈어/영어 병렬 말뭉치이다.
  • ParaSol은 슬라브어 및 기타 언어 병렬 말뭉치이다.
  • InterCorp는 체코어와 정렬된 40개 언어를 포함하는 다국어 병렬 말뭉치이다.
  • Language Grid는 병렬 텍스트 서비스를 포함하는 다국어 서비스 플랫폼이다.

5. 3. 기타

6. 정렬 도구 (Alignment tools)


  • GIZA++ (1999)
  • Uplug (2003)
  • Gale과 Church 문장 정렬 알고리즘 구현 (2005)
  • Hunalign (2005)
  • Champollion (2006)
  • mALIGNa (2008–2020)
  • Gargantua (2010)
  • Bleualign (2010)
  • YASA (2013)
  • 계층적 정렬 도구 (HAT) (2018)
  • Vecalign (2019)
  • 그르노블 대학교의 웹 정렬 도구

참조

[1] 서적 Routledge Encyclopedia of Translation Technology https://books.google[...] Routledge 2015
[2] 서적 Syntax-based Statistical Machine Translation https://books.google[...] Morgan & Claypool 2016
[3] 논문 Impact of using parallel text strategy on teaching reading to intermediate II level students https://doi.org/10.4[...] 2021
[4] 간행물 Noisy-Parallel and Comparable Corpora Filtering Methodology for the Extraction of Bi-Lingual Equivalent Data at Sentence Level 2015
[5] 간행물 Bi-Text, A New Concept in Translation Theory http://mt-archive.in[...] 1988-03
[6] 학위논문 How Reliable Are Online Bilingual Concordancers? An investigation of ''Linguee'', ''TradooIT'', ''WeBiText'' and ''ReversoContext'' and Their Reliability Through a Contrastive Analysis of Complex Prepositions from French to English http://urn.nb.no/URN[...] Université catholique de Louvain & Universitetet i Oslo 2016
[7] 웹사이트 TradooIT – Concordancier bilingue http://tradooit.com
[8] 학술회의 WeBiText: Building Large Heterogeneous Translation Memories from Parallel Web Content 2008
[9] 학술회의 The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages 2006



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com