말뭉치언어학
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
말뭉치 언어학은 방대한 양의 실제 언어 사용 데이터를 수집하고 분석하여 언어를 연구하는 학문 분야이다. 1960년대 브라운 말뭉치의 구축과 함께 시작되었으며, 언어학, 교육학, 통계학 등 다양한 분야의 방법론을 활용한다. 말뭉치는 텍스트의 대표성과 균형성을 갖추어야 하며, 균형 말뭉치, 주석 말뭉치 등 다양한 종류가 존재한다. 말뭉치는 빈도 분석, 연어 연구, 변이 연구, 역사 언어 연구, 비교 언어학, 언어 교육, 사전 편찬 등 다양한 분야에서 활용되며, 언어학적 가설 검증, 언어 사용 양상 분석, 사전 제작 등에 기여한다. 하지만 구어 데이터 수집의 어려움, 비용 문제, 저작권 문제 등의 한계점도 존재한다.
현대 말뭉치 언어학은 1967년 브라운 말뭉치를 만들고 연구한 '미국 영어의 전산 분석'이 출간되면서 시작되었다고 할 수 있다.[26] 이보다 앞선 연구로는 1960년 '영어 사용역의 기술에 대하여'가 있다.[27]
2. 역사
말뭉치 언어학은 촘스키의 생성 문법이 언어 능력을 조사 대상으로 하는 것과 달리, 언어 사용[24]에 초점을 맞춘다. 특정 언어 현상을 가설로 설정하고, 말뭉치 데이터를 바탕으로 기술하며, 가설을 검증하고 새로운 가설을 설정하는 연구 방식이 일반적이다. 말뭉치 언어학의 발전을 통해 인간이 사용하는 언어의 대부분이 "정해진 표현의 조합"이라는 것이 밝혀졌다.[25]
문법 기술에 대한 초기 노력은 특정 종교나 문화적으로 중요한 말뭉치를 바탕으로 했다. 프라티샤캬 문헌은 베다의 산스크리트어 음성 패턴을 설명했고, 파니니의 고전 산스크리트어 문법은 같은 말뭉치 분석을 기반으로 했다. 초기 아랍어 문법학자들은 코란의 언어에 주목했고, 서유럽 학자들은 성경 일치표를 만들어 성경과 다른 정경 텍스트의 언어를 자세히 연구했다.
실제로 사용된 언어 자료의 집성을 『말뭉치』라고 부르며, 최근에는 전자화된 언어 자료를 가리킨다. 이 말뭉치를 활용하여 실제 언어 구조를 탐구하는 학문이 말뭉치언어학이다.
일본에서는 일본어학 분야에서 말뭉치라는 명칭을 사용하지 않지만, 컴퓨터를 이용한 언어 자료 연구는 일찍부터 이루어졌다. 유럽 계열 언어 연구 분야에서 말뭉치라는 이름이 사용되기 시작한 것은 1980년대 후반이다. 일본의 관련 학회로는 계량 국어 학회(1956년 설립), 영어 말뭉치 학회(1993년 설립) 등이 있다.
2. 1. 세계적 역사
현대 '''말뭉치 언어학'''의 시작은 브라운 말뭉치를 만들고 연구한 '미국 영어의 전산 분석'(1967) 출간이라고 할 수 있다.[26] 브라운 말뭉치는 다양한 곳에서 100만 어절을 뽑은 현대 미국 영어의 표본이다. 그 연구에서 저자들은 언어학, 교육학, 통계학, 사회학적인 방법을 동원해 다양한 사례를 보여주었다. 그보다 조금 앞선 연구로는 '영어 사용역의 기술에 대하여'(1960)가 있다.[27]
얼마 후 '아메리칸 헤리티지 영어사전'(The American Heritage Dictionary of the English Language, AHD) 출간에 말뭉치 언어학적 방법이 일부 쓰여, AHD가 규범사전임에도 기술사전다운 정보가 많이 들어갔다. 이 작업에는 브라운 말뭉치를 만든 헨리 쿠체라가 참여했다. 영국에서는 하퍼 콜린스 출판사가 '영어 뱅크' 보강 작업에 참여하여 '콜린스 코빌드 영어사전'을 만들었고, 롱맨은 자사의 대표적인 문법서를 만들면서 말뭉치를 활용했다.[28]
브라운 말뭉치는 이후 수많은 말뭉치들의 본보기가 되었다.
이름 | 연도 | 국가 | 특징 | 규모 | 비고 |
---|---|---|---|---|---|
브라운 말뭉치(Brown Corpus) | 1963-4 | 미국 | 1960년대 미국 문어 | 100만 어절[29] | |
LOB 말뭉치(Lancaster-Oslo/Bregen Corpus) | 1970-78 | 영국/노르웨이 | 1960년대 영국 문어 | 100만 어절 | 브라운 말뭉치와의 비교 연구에 활용 |
런던-룬트 말뭉치(London-Lund Corpus) | 1975-88 | 영국/스웨덴 | 1960년대 영국 구어 | 50만 어절 | 영어 사용례 말뭉치(Survey of English Usage Corpus)의 구어 부분을 주로 주석 |
헬싱키 말뭉치(Helsinki Corpus of English Text) | 1984- | 핀란드 | 750년-1720년 사이의 문어와 1970년대 구어 전사 방언 | 공시 말뭉치 160만 어절, 방언 말뭉치 40만 어절 | |
랭카스터 말뭉치(Lancaster/IBM Spoken English Corpus) | 1984-87 | 영국 | 1980년대 영국 구어 | 5만 어절 | 음성 합성 시스템 개발, 구두점이나 운율 전사와 같은 특수한 주석 |
국제 영어 말뭉치(International Corpus of English) | 1990- | 다국적 | 1990년대 초반의 다양한 문어 | 2000만 어절 | |
BNC(British National Corpus) | 1991-94 | 영국 | 1960년대 이후의 현대 영국 영어 | 1억 어절 | 여러 사전 출판사와 연구기관이 연대한 최대 규모의 영어 말뭉치 |
영어 뱅크(The Bank of English) | 1980- | 영국 | 1990년대 이후의 영국 영어 | 33만 어절 이상 | 30% 정도의 구어를 포함, 콜린스 코빌드가 주로 활용 |
유럽 다국어 말뭉치(European Corpus Initiative Multilingual Corpus I) | 1992-93 | 유럽 | 현대 유럽어 | 1억 어절 | 유럽 언어들을 위주로 한 다국어 말뭉치 |
COCA(Corpus of Contemporary American English) | 1990- | 미국 | 현대 미국어 | 4억 어절[30] |
최초로 구어를 전사한 말뭉치는 100만 어절 규모의 몬트리올 프랑스어 프로젝트(The Montreal French Project, 1971)였다. 또한 히브리어 바이블에 관한 말뭉치(The Andersen-Forbes database)도 있다. 주석의 수준에 따라서도 말뭉치가 다양하다.[31]
2. 2. 한국에서의 역사
한국에서는 1988년부터 연세대학교에서 구축해 온 연세 한국어 말뭉치가 대표적이다. 한국과학기술원, 고려대학교, 국립국어원 등에서도 본격적으로 말뭉치를 구축해 왔으며, 1998년부터 ‘21세기 세종 계획: 국어정보화 추진 중장기 사업’의 일환으로 국가 말뭉치가 구축되기 시작하였다.「연세 한국어 사전」 편찬 과정에서는 1960년대부터 1990년대 중반까지의 국내 출판물과 일부 구어를 중심으로 다양한 주제와 형태의 글을 전산 입력하였고(이것을 '연세 말뭉치'라 한다), 이 자료에서 단어가 실제로 쓰인 용례를 찾아 의미와 용법을 기술하였다.
명칭 | 구축 시기 | 대상 언어 | 규모 | 활용 | 주관 기관 |
---|---|---|---|---|---|
연세대학교 한국어 말뭉치 | 1987년- | 1960년대 이후의 한국어 | 4200만 어절 | 연세한국어사전 편찬 | 연세대학교 언어정보연구원 |
고려대학교 한국어 말모둠 | 1995년 | 1970-90년대 한국어 | 8억4000만 어절 | 고려대학교 민족문화연구소 | |
국립국어원 말뭉치 | 1992년- | 1400년대 이후의 한국어 | 6800만 어절 | 표준국어대사전 편찬 | 국립국어원 |
3. 말뭉치의 요건과 종류
말뭉치의 대표성과 균형성은 중요한 특성이다. 대표성은 모집단을 통계적으로 대표하는 것을 의미하며, 균형성은 언어의 미묘한 부분을 반영하는 것을 의미한다. 즉, 다수뿐 아니라 소수도 고려해야 한다. 이를 위해 픽션/논픽션, 구어/문어, 작가의 연령/성별 등 다양한 기준을 적용할 수 있다.
말뭉치에는 그 특성에 따라 여러 종류가 있다.
용도에 따른 분류 | 가공 정도에 따른 분류 | 시대에 따른 분류 | 변화 여부에 따른 분류 |
---|---|---|---|
균형 말뭉치, 학습 말뭉치, 학습자 말뭉치, 방언 말뭉치 | 원시 말뭉치, 주석 말뭉치, 분석 말뭉치 | 공시적 말뭉치, 역사 말뭉치 | 정적 말뭉치, 동적 말뭉치[33] |
균형 말뭉치는 모집단 구성, 표준화 방법 등을 고려하여 구축해야 한다. 주석 말뭉치는 형태, 통사, 의미 정보 등을 포함하는 말뭉치이다.
21세기 세종계획으로 구축된 말뭉치에는 현대 국어 구어 전사 말뭉치, 한영/한일 병렬 말뭉치, 북한 및 해외 한국어 말뭉치, 역사 자료 말뭉치, 전문 용어 말뭉치 등이 있다.[34]
4. 말뭉치의 구축
말뭉치를 구축할 때 처음 발생하는 문제는 어떤 문서에서 어느 정도의 양을 고를 것인가이다. 예를 들어 연세대학교 한국어사전을 만들 때는 일반인의 독서 실태를 조사하여 다음과 같이 비중을 정했다.[35]
문서 종류 | 비중 |
---|---|
신문 | 33% |
잡지 | 20% |
문학 | 18% |
취미/교양 | 10% |
수기/전기/실화 | 9% |
교과서 | 5% |
이는 독서량이 어휘 사용 및 해독량과 비례할 것이라는 가정에 따른 것이다. 다른 가정을 세운다면 또 다른 결과가 나올 수 있다.
세종 계획 말뭉치는 연세대학교 말뭉치에 비해 규모가 방대하고 준구어 텍스트까지 포함하는 등 좀 더 범용으로 만들어졌다. 하지만 전체적인 장르 간 비율 등을 보면 연세대학교 말뭉치와 많이 다르다고 보긴 어렵다. 고려대학교 한국어 말모둠은 세종 계획 말뭉치를 구축한 김흥규와 강범모가 만든 것이라 전체적인 체계는 비슷하나 비율이 좀 다르다. 총 1008만 어절 중에서 (준)구어 11.7%, 신문 20.7%, 잡지 9.8%, 책-정보 33.5%, 책-상상 21%, 기타 3.3%이다.[36][37]
말뭉치를 구축할 때는 1차 설계, 구축, 분석, 2차 설계, 구축, 분석 등 순환적으로 검토하면서 진행한다. 실험적으로 구축한 부분 말뭉치가 적당한지 검증을 해서 다시 2차 말뭉치를 구축한다. 이는 기존에 알려진 사실들과 대조하여 검증이 가능하다. 한국어의 품사는 대략 어떤 비율을 가진다. 고빈도어의 사용 빈도 등이 알려져 있기 때문이다. 좀 더 상세한 검증도 필요하다. 예를 들어 감탄사나 선어말 어미, 대명사의 사용 빈도는 장르에 따라 변화가 있다. 이런 특성에 기대어 말뭉치가 균형성을 가지게 되었는지, 아니면 구축자의 의도에 맞게 만들어졌는지를 판단해볼 수 있다.
말뭉치는 클수록 좋겠지만, 크면 그만큼 다루기 힘들어지고 또 수집하기도 어렵다. 따라서 신뢰도를 어디까지 가져갈 것인가에 맞춰 크기를 결정하면 된다. 예전에는 어떻게 대표성을 유지하면서 말뭉치의 크기를 줄일 것인가를 고민했다. 컴퓨터의 성능이 그리 좋지 못했기 때문이다. 이 문제는 여전히 유효하고, 그래서 글의 앞쪽 일부만을 취한다거나 하는 방법들도 있었지만 지금은 그렇게까지 조절하진 않아도 기술의 발달로 다량의 문서를 다룰 수 있다.
5. 말뭉치의 활용
말뭉치 분석으로 얻는 가장 유용한 정보는 빈도이다. 특정 어휘나 환경이 말뭉치 내에서 얼마나 자주 나타나는지를 관찰하면, 이후 연구 방향을 설정하고 언어학적 가설을 검증하는 데 유용하다.[5] 빈도는 단순 수치뿐 아니라, 정규화 과정을 거쳐 통계적 방법론, 주로 카이제곱 검증(chi-squared test)을 통해 분석된다.
1967년 출판된 ''현대 미국 영어의 전산 분석''(Computational Analysis of Present-Day American English)은 현대 말뭉치 언어학의 획기적인 사건이었다. 헨리 쿠체라(Henry Kučera)와 W. 넬슨 프랜시스(W. Nelson Francis)는 브라운 말뭉치(Brown Corpus) 분석을 기반으로 이 책을 집필했다.[6] 이후, 호튼 미플린(Houghton-Mifflin)은 쿠체라에게 ''미국 헤리티지 영어 사전(The American Heritage Dictionary of the English Language)'' 편찬을 위한 기반을 제공하도록 요청했다. 다른 출판사들도 이 흐름에 따라, 콜린스(Collins)는 COBUILD 단일 언어 학습자 사전을 Bank of English를 사용하여 편찬하였다. 영국 사용법 조사(Survey of English Usage) 말뭉치는 ''영어 문법 종합''(A Comprehensive Grammar of the English Language) 개발에 사용되었다.[9]
브라운 말뭉치(Brown Corpus)는 LOB 말뭉치(1960년대 영국 영어), 콜라푸르 (인도 영어), 웰링턴 (뉴질랜드 영어), 호주 영어 말뭉치(호주 영어), Frown 말뭉치(1990년대 초 미국 영어), FLOB 말뭉치(1990년대 영국 영어) 등 유사한 구조의 말뭉치에 영향을 주었다. 국제 영어 말뭉치, 영국 국립 말뭉치를 비롯하여, 현대 미국 영어의 경우 미국 국립 말뭉치(American National Corpus) 작업이 중단되었지만, 현대 미국 영어 말뭉치(Corpus of Contemporary American English)(1990년~현재)가 제공되고 있다.
1971년 몬트리올 프랑스 프로젝트에 의해 최초의 전산화된 구어 텍스트 말뭉치가 구성되었고,[10] 샤나 팝락(Shana Poplack)의 오타와-헐 지역 구어 프랑스어 말뭉치에 영감을 주었다.[11] 1990년대 자연어 처리(NLP) 분야에서 통계적 방법론의 초기 성공은 기계 번역 분야에서 이루어졌다. 이러한 시스템은 캐나다 의회와 유럽 연합의 다국어 텍스트 말뭉치를 활용했다.
일본의 국립 국어 연구소는 일본어 말뭉치를 구축했고, 수화 말뭉치 또한 만들어졌다.[12] 고대 언어 텍스트 모음으로 컴퓨터화된 말뭉치도 만들어졌다. 앤더슨-포브스 히브리어 성경 데이터베이스, 꾸란 아랍어 말뭉치(Quranic Arabic Corpus), 산스크리트어 디지털 말뭉치(DCS) 등이 그 예이다.[13][14][15][16]
말뭉치 언어학은 법률과 말뭉치 언어학과 같은 다른 분야에도 적용되고 있으며,[17] 번역[19] 및 외국어 교육[20]에도 도움을 줄 수 있다. 말뭉치 언어학은 주석, 추상화, 분석의 3A 관점을 제시했다.[21]
- '''주석'''은 텍스트에 스키마를 적용하는 것이다.
- '''추상화'''는 스키마의 용어를 이론적 모델 또는 데이터세트의 용어로 변환하는 것이다.
- '''분석'''은 데이터세트에서 통계적으로 조사하고, 조작하고, 일반화하는 것이다.
주석이 달린 말뭉치는 다른 사용자가 실험을 수행할 수 있게 해준다.[22]
실제로 사용된 언어 자료의 집성을 『말뭉치』라고 하며, 최근에는 전자화된 언어 자료를 가리킨다. 말뭉치 언어학은 이 말뭉치를 이용하여 실제적인 언어 구조를 탐구한다. 촘스키의 생성 문법이 언어 능력[23]을 조사 대상으로 하는 반면, 말뭉치 언어학은 언어 사용[24]에 초점을 맞춘다. 말뭉치 언어학의 발전에 의해, 인간이 사용하는 언어의 거의 전부가 "정해진 표현의 조합이다"라는 것이 밝혀졌다.[25] 일본에서는 1980년대 후반부터 유럽 계열 언어 연구 분야에서 말뭉치라는 이름이 사용되기 시작했다. 일본의 관련 학회로는 계량 국어 학회(1956년 설립), 영어 말뭉치 학회(1993년 설립) 등이 있다.
5. 1. 언어 연구
말뭉치를 이용하면 연어를 보다 정량적으로 연구할 수 있다. 단순히 단어들이 같이 나타나는 것(공기 관계)인지, 아니면 실제로 연어 관계에 있는지를 확인하기 위해 상호정보량이나 표준 점수(Z-score) 같은 계산이 사용된다. 상호정보량은 두 단어 A와 B가 함께 나타날 확률과 각각 독립적으로 나타날 확률을 비교한 값이다. 이러한 기준으로 선정된 연어는 많은 사전에 실리고 있다.하지만 말뭉치에서 자주 나타난다고 해서 모두 연어라고 할 수는 없다. 연어로 인정받으려면 A와 B가 결합했을 때, A'와 B 또는 A와 B'의 의미가 되어야 한다. 따라서 말뭉치에서 찾은 후보들을 언어학자가 직접 검토하여 그 의미가 얼마나 명확한지를 판단해야 한다. 반대로, 언어학자가 선택한 연어가 실제로 자주 함께 쓰이는지를 확인하기 위해 말뭉치를 활용할 수도 있다. 연어의 중심 단어(핵)에서 2-3단어 정도 떨어진 위치에 있는 연어 구성 요소(변이형)까지 자동으로 조사하는 것은 말뭉치 없이는 거의 불가능하다. 또한 연어는 사용에 제약이 있거나 특수한 형태로만 사용되는 경우가 많기 때문에, 이를 정확히 기술하기 위해서도 말뭉치를 참고해야 한다.
5. 2. 변이 연구
말뭉치는 목적에 따라 다르게 구축할 수 있다. 예를 들어 구어 말뭉치를 따로 구축하면 문어와 대비되는 구어의 사용 양상을 찾아볼 수 있다. 마찬가지로 공적인 문서와 사적인 문서를 구분해두면 특정 어휘나 스타일이 다른 영역에서 어떻게 사용되는가를 계량적으로 파악할 수 있다. 성, 인종, 국가, 계급 등 적절한 분류만 있다면 얼마든지 분야별 말뭉치를 만들 수 있다. 이러한 접근은 사회언어학, 심리언어학 등에서 특히 유용하다.5. 3. 역사 언어 연구
대개의 말뭉치는 현대어 위주로 구축되어 있지만 역사 말뭉치를 구축하면 통시적 연구가 가능해진다. 특정 어휘가 어떤 식으로 변해왔는가를 추적할 수도 있고, 그 시대 어휘만을 다룬 역사 사전도 만들 수 있다. 물론 역사 말뭉치는 구축이 어렵다. 한국어의 경우 한자와 한글이 뒤섞여 쓰인데다가 곡용이나 활용태가 현대어와 많이 다르다. 표기의 일관성이 보장되지 않아 수많은 이표기를 함께 처리해야 하는 불편함이 있다. 역사 말뭉치는 문서 수가 한정적이므로 균형을 갖춰 구축하는 것 자체가 어려운 면이 있다. 그럼에도 불구하고 역사 말뭉치는 역사 언어 연구의 필수 불가결한 도구이자 대상이 되어가는 중이다.[13][14]살아있는 언어의 말뭉치 외에도, 고대 언어 텍스트 모음으로 컴퓨터화된 말뭉치도 만들어졌다. 1970년대부터 개발된 앤더슨-포브스 히브리어 성경 데이터베이스는 모든 절이 최대 7단계의 구문 그래프를 사용하여 구문 분석되고, 모든 세그먼트는 7개의 정보 필드로 태깅된다. 꾸란 아랍어 말뭉치(Quranic Arabic Corpus)는 꾸란의 고전 아랍어에 대한 주석 처리된 말뭉치이다. 이 프로젝트는 형태소 분할, 품사 태깅, 의존 문법을 사용한 구문 분석을 포함한 여러 계층의 주석을 포함한다.[15] 산스크리트어 디지털 말뭉치(DCS)는 "산스크리트어 언어학 및 어원학에서 텍스트 역사적 연구를 위해 설계된 산스크리트어 텍스트의 산디 분할 말뭉치로, 완전한 형태소 및 어휘 분석을 포함한다."[16]
5. 4. 비교 언어학
2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치(parallel corpus, 병렬 코퍼스)라 부른다. 병렬말뭉치는 문장 대 문장 혹은 문단 대 문단으로 구축되어 있다. 병렬말뭉치는 언어 간의 대조 분석, 번역 연구에 활용된다.[23]최초로 구축된 병렬말뭉치 중 하나인 영어-노르웨이어 병렬말뭉치는 다음 3가지 목적을 가지고 만들어졌다.
목적 |
---|
동일 장르 간 영어권과 노르웨이어권의 비교 |
영어가 노르웨이어로 번역되면서 어떤 변화가 생기는가 혹은 그 반대의 고찰 |
노르웨이어로 쓰인 문학과 노르웨이어로 번역된 문학의 비교 |
병렬 말뭉치를 구축할 때 가장 큰 주의점은 되도록 직역한 것 위주로 모으는 것이 좋으며 원문과 번역문의 표시를 명확하게 해야 한다는 것이다. 병렬말뭉치가 구축되어 있으면 이국어 사전을 만드는 데 도움이 된다. 영영사전을 번역하여 영한사전을 만드는 것과 병렬말뭉치를 활용해 영한사전을 만드는 것은 근본적인 차이가 있기 때문이다. 후자 쪽이 더욱 기술적인 사전이 될 수밖에 없고 실제 언어 생활에 가까운 형태로 나오게 된다.[24]
5. 5. 언어 교육
말뭉치에서 수많은 용례가 쏟아지는 것만으로도 충분한 언어 교육의 효과가 있다. 이러한 관점으로 만들어진 방법론이 CALL(computer assisted language learning)이다. 교사는 이러한 시스템을 통해 학습자를 지도할 수 있다. 찾고자 하는 용례를 검색하는 방법을 가르쳐주고 학습자가 그것을 찾아내도록 도와주는 과정 속에서 학습자는 배우고자 한 어휘/문장과 함께 그 주변의 어휘/문장까지 함께 접하게 된다. 여러 용례 안에는 다양한 변이와 주변 환경이 함께 제시되기 때문에 읽어나가는 과정에서 복합적인 이해를 할 수 있게 되는 것이다. 여기서는 어떤 예문이 좋은 예문인가 혹은 학습자의 수준에 맞춰 예문을 제시하려면 어떤 기준이 필요한가 등이 함께 고민되어야 한다.[20]5. 6. 사전 편찬
사전 편찬은 언어학 정보를 집대성하는 과정이라고 해도 과언이 아니다. 따라서 말뭉치를 토대로 한 언어 연구의 결과물은 사전 편찬 과정에 반영되기 마련이고 대규모의 말뭉치는 사전 편찬과 함께 발달되었다. 그리고 점차 실제 쓰이는 언어를 반영하는 기술적 측면이 강조되고 있으므로 말뭉치의 활용도는 절대적이다. 연어 연구에서와 마찬가지로 표제어를 선정할 때 뿐 아니라 예문을 고르고 의미 구분의 기준을 잡을 때에도 매번 말뭉치를 참고하지 않으면 안 된다.사전 편찬의 모든 영역에 있어서 말뭉치의 활용이 필요하지만 몇 가지 나열해보면 연관 복합어 찾기, 용언의 활용태 찾기, 특수한 영역 내 사용 양상 파악, 격틀에 맞는 용례 검색 등 여러 가지가 있다.
현대 말뭉치 언어학의 획기적인 사건은 1967년 출판된 ''현대 미국 영어의 전산 분석''(Computational Analysis of Present-Day American English)이었다. 헨리 쿠체라(Henry Kučera)와 W. 넬슨 프랜시스(W. Nelson Francis)가 집필한 이 작품은 1961년 미국 영어 100만 단어로 구성된 구조화되고 균형 잡힌 말뭉치인 브라운 말뭉치(Brown Corpus) 분석을 기반으로 했다.[5] 브라운 말뭉치는 다양한 장르의 2000개의 텍스트 샘플로 구성된다. 브라운 말뭉치는 언어학 연구를 위해 설계된 최초의 전산화된 말뭉치였다.[6]
그 직후, 보스턴 출판사 호튼 미플린(Houghton-Mifflin)은 쿠체라에게 최초로 말뭉치 언어학을 사용하여 편찬된 새 ''미국 헤리티지 영어 사전(The American Heritage Dictionary of the English Language)''을 위해 백만 단어, 세 줄의 인용구 기반을 제공하도록 요청했다.
다른 출판사들도 따랐다. 영국 출판사 콜린스(Collins)의 COBUILD 단일 언어 학습자 사전은 외국어로서의 영어 학습 및 교육(English language learning and teaching)을 배우는 사용자를 위해 설계되었으며, Bank of English를 사용하여 편찬되었다.
6. 말뭉치의 한계
사전 편찬이나 언어 연구에서 말뭉치만으로는 모든 것을 해결할 수 없다. 말뭉치로 구축하기 어려운 언어 현상들이 존재한다. 예를 들어, 방언 화자의 구어 말뭉치를 전사(轉寫)하는 것은 많은 노력이 필요하며, 휴대폰 문자 메시지의 언어 변화를 추적하는 것은 개인 정보 문제라는 장벽이 있다. 이러한 현상들은 말뭉치보다는 소규모 샘플링을 통한 사례 연구가 더 적합할 수 있다.
비용 문제도 존재한다. 범용 사전을 만들 수 있을 정도의 대규모 균형 말뭉치를 구축하는 것은 큰 비용이 필요하다. 한국에서 사전 출판사 규모로는 감당하기 어렵다. 또한, 높은 수준의 자연어 처리 및 데이터베이스 관리 능력이 필요하며, 저작권 문제도 걸림돌이 된다. 따라서 국가나 학계 이외의 곳에서 진행하기는 어렵다. 말뭉치에 정교한 주석을 추가하는 작업 역시 방대하므로 대규모 프로젝트 없이는 불가능하다.
참조
[1]
서적
English Corpus Linguistics
Cambridge University Press
[2]
백과사전
Corpus Linguistics
https://www.scienced[...]
Elsevier
2006-01-01
[3]
서적
The automatic analysis of corpora
Mouton de Gruyter
[4]
간행물
Annotation, Retrieval and Experimentation
http://www.helsinki.[...]
Varieng, [University of Helsinki]
[5]
서적
Computational Analysis of Present-Day American English
Brown University Press
1967-06-01
[6]
백과사전
Corpus Linguistics
https://www.scienced[...]
Pergamon
2001-01-01
[7]
학술지
Towards a description of English Usage
1960-11
[8]
백과사전
Corpus Linguistics
https://www.scienced[...]
Pergamon
2001-01-01
[9]
서적
A Comprehensive Grammar of the English Language
Longman
1985
[10]
학술지
Sample survey methods and computer-assisted analysis in the study of grammatical variation
Linguistic Research Incorporated
1973
[11]
학술지
The care and handling of a mega-corpus
Benjamins
1989
[12]
웹사이트
National Center for Sign Language and Gesture Resources at B.U.
https://www.bu.edu/a[...]
[13]
학술지
Hebrew Grammar Visualized: I. Syntax
[14]
서적
Revelations from Word Counts
Eisenbrauns
[15]
학술지
Supervised Collaboration for Syntactic Annotation of Quranic Arabic
[16]
웹사이트
Digital Corpus of Sanskrit (DCS)
http://www.sanskrit-[...]
[17]
학술지
D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research
https://aclanthology[...]
European Language Resources Association
2022
[18]
학술지
NLP Scholar: A Dataset for Examining the State of NLP Research
https://aclanthology[...]
European Language Resources Association
2020
[19]
백과사전
Machine Readable Corpora
https://www.scienced[...]
Elsevier
2006-01-01
[20]
웹사이트
Corpus Linguistics {{!}} ENGLISH LINGUISTICS
https://www.english-[...]
[21]
학술지
Knowledge discovery in grammatically analysed corpora
[22]
서적
Triangulating Methodological Approaches in Corpus-Linguistic Research
Routledge
[23]
문서
competence
[24]
문서
performance
[25]
뉴스
多くの達人が実践している学習法 “暗唱”が最強の英語学習法である理由(1)
http://business.nikk[...]
日経BP
2016-07-23
[26]
서적
Computational Analysis of Present-Day American English
[27]
학술지
Towards a description of English Usage
[28]
서적
A Comprehensive Grammar of the English Language
Longman
[29]
서적
국어정보학 입문
태학사
[30]
문서
말뭉치 목록
[31]
서적
국어정보학 입문
태학사
[32]
서적
국어정보학 입문
태학사
[33]
문서
구글 검색엔진
[34]
문서
한국어 말뭉치
[35]
문서
[36]
논문
21세기 세종계획 현대국어 기초말뭉치: 성과와 전망
2007년도 제19회 한글 및 한국어 정보처리 학술대회
2007
[37]
문서
세종계획 말뭉치와 연세 말뭉치 비교 분석
[38]
논문
Knowledge discovery in grammatically analysed corpora
2001
[39]
문서
구문 주석의 중요성과 어려움
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com