연어 (언어학)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

연어는 반복적인 문맥 의존적 사용을 통해 굳어진 부분적 또는 완전 고정 표현을 의미한다. 언어 사용 능력에 필수적이며, 통사론적, 어휘적 관계를 가질 수 있다. 코퍼스 언어학에서는 핵심어를 중심으로 주변 단어의 연관성을 측정하여 연어를 연구하며, 상호 정보량, t-점수, 로그 우도 등을 활용한다. 연어는 공기어, 통계적 관점, 구성 및 표현의 세 가지 관점에서 설명될 수 있으며, 사전 편찬에서도 중요한 역할을 한다. 통계적 유의미성을 평가하기 위해 t-검정, 상호의존 정보량, 로그 가능도 등이 사용된다.

연어 (언어학)

개요

정의	둘 이상의 단어가 함께 나타나는 경향
언어학	특정한 단어들이 함께 사용되는 경향 또는 그러한 단어들의 결합
의미	단어들의 의미적인 결합 관계를 나타냄
예시	"발을 씻다" (O), "머리를 감다" (O), "손을 씻다" (O), "얼굴을 씻다" (X)

종류

문법적 연어	문법적인 관계에 의해 결합되는 단어들의 연어 (예: 동사와 조사의 결합)
어휘적 연어	의미적인 관계에 의해 결합되는 단어들의 연어 (예: "강한 비", "깊은 인상")

특성

예측 불가능성	개별 단어의 의미만으로는 전체 연어의 의미를 예측하기 어려움
관용성	연어는 특정 언어에서만 사용되는 고유한 표현일 수 있음
빈도	특정 단어들이 다른 단어들보다 더 자주 함께 사용됨

연어의 중요성

자연스러운 언어 사용	연어를 사용하면 더욱 자연스럽고 유창하게 언어를 구사할 수 있음
언어 학습	연어 학습은 외국어 학습에서 중요한 부분을 차지함
자동 번역	정확한 연어 처리는 자동 번역의 품질을 향상시킴

연어 연구

말뭉치 언어학	대규모 텍스트 데이터 (말뭉치)를 분석하여 연어를 추출하고 연구함
통계적 방법	단어들의 동시 출현 빈도를 통계적으로 분석하여 연어 관계를 파악함
연어 사전	다양한 연어들을 모아 놓은 사전으로, 언어 학습 및 연구에 활용됨

기타

관련 개념	숙어, 관용구, 상투어

📚 더 읽어볼만한 페이지

낱말 - 의태어
낱말 - 올해의 단어
올해의 단어는 각 국가 및 언어권에서 한 해를 대표하는 단어를 선정하는 것으로, 사회, 문화적 현상과 유행을 반영한다.
사전 편찬 - 어휘
어휘는 특정 언어에서 개인이 사용하는 단어들의 집합을 지칭하며, 언어학적으로는 고유어, 한자어, 외래어 등 다양한 유형으로 분류되고, 어휘 습득은 언어 능력 및 인지 발달에 중요한 영향을 미친다.
사전 편찬 - 이름
이름은 사물이나 개념을 식별하고 구별하기 위해 사용되는 단어 또는 단어들의 조합으로, 개인, 장소, 조직 등 다양한 대상에 붙여져 고유한 의미와 규칙을 지니며, 사람의 이름은 개인의 정체성을 나타내는 중요한 요소이다.
말뭉치언어학 - 토픽 모델
토픽 모델은 텍스트 데이터에서 문서의 주제를 찾기 위해 사용되는 통계적 모델링 방법으로, 잠재 의미 분석(LSI)에서 잠재 디리클레 할당(LDA)까지 다양한 모델이 개발되어 텍스트 데이터 분석 외 여러 분야에 응용되며, Mallet, Gensim 등의 도구로 사용 가능하다.
말뭉치언어학 - N-그램
N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.

1. 개요
2. 연어의 정의 및 특징
3. 연어 연구 및 사전에서의 활용
4. 통계적 연어 추출
- 4.1. T-test 공식
5. 연어의 다양한 관점

2. 연어의 정의 및 특징

연어는 반복적인 문맥 의존적 사용을 통해 정착된 부분적 또는 완전 고정 표현이다. 'crystal clear'(명확한), 'middle management'(중간 관리), 'nuclear family'(핵가족), 'cosmetic surgery'(성형 수술)와 같은 용어는 연어의 예시이다.

연어는 통사적 관계(예: 동사-목적어: 'make'(만들다)과 'decision'(결정)), 어휘적 관계(예: 반의어)를 가질 수 있으며, 언어학적으로 정의된 관계가 없을 수도 있다. 연어에 대한 지식은 언어를 능숙하게 사용하는 데 필수적이다. 연어 선호도가 위반되면 문법적으로 올바른 문장이 어색하게 보일 것이다. 이것은 연어를 언어 교육의 흥미로운 영역으로 만든다.

코퍼스 언어학자들은 문맥 속의 핵심어(KWIC)를 지정하고 그 주변의 단어를 식별한다. 이는 단어가 사용되는 방식을 파악하는 데 도움이 된다.

연어의 처리는 여러 매개변수를 포함하며, 가장 중요한 것은 공기어가 순전히 우연인지 통계적으로 유의미한지 평가하는 '연관성 측정'이다. 언어의 비무작위적 특성으로 인해 대부분의 연어는 유의미한 것으로 분류되며, 연관성 점수는 단순히 결과를 순위로 정하는 데 사용된다. 일반적으로 사용되는 연관성 측정에는 상호 정보량, t 점수, 로그 우도가 있다.

3. 연어 연구 및 사전에서의 활용

코퍼스 언어학에서는 KWIC(핵심어) 분석을 통해 특정 단어 주변에 어떤 단어들이 함께 사용되는지 파악하여 연어를 연구한다. 연어의 통계적 유의미성을 평가하기 위해 상호 정보량, t 점수, 로그 우도 등의 연관성 측정이 사용된다.

1933년 해럴드 팔머의 영어 연어에 대한 두 번째 임시 보고서는 외국어 학습에서 연어의 중요성을 강조했다. 이후 1940년대부터 단어 조합 정보는 단일 언어 학습자 사전의 표준 기능이 되었고, "단어 중심에서 구 중심"으로 변화하면서 연어에 더 많은 관심이 쏠렸다. 21세기 초부터 대규모 텍스트 말뭉치와 말뭉치 쿼리 소프트웨어를 통해 사전에서 연어 정보를 체계적으로 제공하게 되었다. 맥밀란 영어 사전 및 롱맨 현대 영어 사전 등은 빈번한 연어 목록을 제공한다.

연어만을 다루는 전문 사전도 출판되고 있는데, Redes: Diccionario combinatorio del español contemporaneo (스페인어, 2004), Le Robert: Dictionnaire des combinaisons de mots (프랑스어, 2007), LTP Dictionary of Selected Collocations (영어, 1997), Macmillan Collocations Dictionary (영어, 2010) 등이 있다.

4. 통계적 연어 추출

통계적으로 유의미한 연어를 추출하기 위해 T-test, 상호의존정보(MI score), 로그 가능도 등이 주로 사용된다. T-test는 두 어휘가 연속으로 나타날 때 이것이 우연인지 아니면 통계적으로 유의미한 연어인지 판정하는 데 사용된다.

4.1. T-test 공식

Student의 t-검정은 말뭉치에서 연어의 발생이 통계적으로 유의미한지 판단하는 데 사용될 수 있다. 어휘 A와 B의 연어 여부를 판정하는 T-test 공식은 다음과 같다.

: $t = \frac{w_{AB} - \frac{w_Aw_B}{N}}{\sqrt{w_{AB}}}$

* $N$ : 말뭉치의 크기
* $w_{A}$ : 말뭉치 전체에서 어휘 A의 빈도
* $w_{B}$ : 말뭉치 전체에서 어휘 B의 빈도
* $w_{AB}$ : 어휘 A의 양 옆에서 어휘 A와 B의 공기 빈도

바이그램 $w_1w_2$ 에 대해, 크기가 $N$ 인 말뭉치에서 $w_1$ 의 무조건적인 발생 확률은 $P(w_1) = \frac{\#w_1}{N}$ 이고, $w_2$ 의 무조건적인 발생 확률은 $P(w_2) = \frac{\#w_2}{N}$ 이다. 바이그램 $w_1w_2$ 에 대한 t-점수는 다음과 같이 계산된다.

: $t = \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{N}}},$

여기서 $\bar{x} = \frac{\# w_iw_j}{N}$ 는 $w_1w_2$ 발생의 표본 평균이고, $\#w_1w_2$ 는 $w_1w_2$ 의 발생 횟수이며, $\mu = P(w_i)P(w_j)$ 는 $w_1$ 과 $w_2$ 가 텍스트에서 독립적으로 나타난다는 귀무가설 하에서 $w_1w_2$ 의 확률이고, $s^2 = \bar{x}(1-\bar{x}) \approx \bar{x}$ 는 표본 분산이다. 큰 $N$ 의 경우, t-검정은 Z-검정과 동일하다.

5. 연어의 다양한 관점

Gledhill은 연어가 공기어, 통계, 구성 및 표현의 세 가지 관점을 포함한다고 제안한다.

* 공기어는 텍스트에서 노드와 공기어의 반복적인 출현을 의미한다.
* 구성은 렉셈과 렉시칼-문법적 패턴 간의 상관관계 또는 기반과 공기어 파트너 간의 관계를 의미한다.
* 표현은 형태와 관계없이 관습적 표현 단위를 의미한다.

이러한 관점은 통사론적 연구에서 연어를 제시하는 방식과 대조되며, 전통적으로 연어는 연속체 내에서 세 가지 관점 모두의 관점에서 설명된다.

: 자유 결합 ↔ 제한 연어 ↔ 고정 관용구