분포 의미론
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
분포 의미론은 언어 요소의 분포를 분석하여 의미를 파악하는 이론이다. 1950년대에 시작되어, 젤리그 해리스, J. R. 퍼스 등의 언어학자들이 이 분야의 기초를 다졌다. 핵심 아이디어는 '단어의 의미는 함께 나타나는 단어들에 의해 결정된다'는 분포 가설로, 이는 통계 의미론의 기반이 되었다. 벡터 공간 모델을 활용하여 단어 간의 의미적 유사성을 파악하며, 잠재 의미 분석, 토픽 모델 등이 구현 방식에 포함된다. 다양한 자연어 처리 분야에 응용되며, 단어 유사성 측정, 정보 검색 등에 활용된다.
더 읽어볼만한 페이지
- 언어 습득 - 언어습득
언어 습득은 인간이 모국어 또는 외국어를 배우는 과정으로, 촘스키의 생성 문법, 인지 언어학, 통계적 학습 이론 등 다양한 이론과 연구를 통해 뇌 발달과 관련하여 태아기부터 성인기까지 단계적으로 진행된다. - 언어 습득 - 독해
독해는 문자에 담긴 정보를 해독하고 이해하는 과정이며, 독자의 지식과 경험, 문장 표현 규칙에 대한 이해가 중요하고, 독해력 향상을 위해 다양한 전략과 평가 방법이 활용된다. - 의미론 (언어학) - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다. - 의미론 (언어학) - 의미 (철학)
의미(철학)는 단어, 기호, 아이디어 등의 의미를 다루는 철학의 한 분야이며, 진리, 정합성, 구성주의, 합의, 실용주의 등의 이론을 통해 의미를 설명하고, 20세기 분석철학에서는 언어 사용과 발화 행위, 대화의 협력 원리 등을 통해 의미를 탐구한다. - 의미 유사도 - 반의어
반의어는 의미가 반대되는 낱말이나 어구로, 한자 구성 방식이나 의미상 관계에 따라 분류되지만, 품사가 항상 같지 않고 문맥에 따라 관계가 달라지는 모호성을 지니며, 언어의 문화적 배경과 사용 문맥에 의존한다. - 의미 유사도 - 시맨틱 네트워크
시맨틱 네트워크는 개념 간의 관계를 표현하는 지식 표현 방법으로, 노드와 링크를 사용하여 지식을 구조화하며 인공지능, 언어학 등 다양한 분야에서 활용된다.
분포 의미론 |
---|
2. 역사
분포 의미론의 역사는 다음과 같이 정리할 수 있다.
== 이론의 기원 ==
분포 의미론의 기원은 1950년대로 거슬러 올라간다. 이 시기 주요 언어학자들의 연구는 분포 의미론의 발전에 중요한 기반을 제공했다.
젤리그 해리스(Zellig Harris)는 1954년 논문에서 언어 요소 간의 분포 구조를 분석하여 의미를 파악하는 방법을 제시했다. 그는 변형 문법의 관점에서, 한 언어에서 서로 다른 두개의 언어 형태소 A와 B가 동일한 문맥에서 나타난다면, A와 B는 의미적으로 유사하다고 보았다.
J. R. 퍼스(J. R. Firth)는 1957년 "단어의 의미는 함께 나타나는 단어들에 의해 결정된다"는 유명한 경구를 제시하며 분포 가설의 핵심 아이디어를 강조했다. 그는 1930년부터 1955년까지의 언어 이론 개요를 제시하면서, 단어의 의미는 그 단어가 사용되는 문맥, 즉 주변 단어들과의 관계를 통해 파악할 수 있다고 주장했다.
이후, 1990년대에 스콧 디어워스터(Scott Deerwester), 수잔 듀마이스(Susan Dumais), 조지 퍼너스(George Furnas), 토마스 랜도어(Thomas Landauer), 리차드 하쉬만(Richard Harshman)은 잠재 의미 분석(Latent Semantic Analysis, LSA)이라는 정보 검색 기법을 개발하여 분포 의미론 연구에 중요한 전기를 마련했다.
== 발전과 확장 ==
스콧 디어워스터(Scott Deerwester), 수잔 듀마이스(Susan Dumais), 조지 퍼너스(George Furnas), 토마스 랜도어(Thomas Landauer) 등은 잠재 의미 분석(Latent Semantic Analysis)을 개발했다. J. R. 퍼스(J. R. Firth)는 분포 의미론의 기반이 되는 아이디어를 제시했다. 젤리그 해리스(Zellig Harris)는 분포 가설을 제시했다. 마그누스 살그렌(Magnus Sahlgren)은 단어-문맥 행렬을 사용하는 의미 모델을 개발했다.
2. 1. 이론의 기원
분포 의미론(Distributional semantics)의 기원은 1950년대로 거슬러 올라간다. 이 시기 주요 언어학자들의 연구는 분포 의미론의 발전에 중요한 기반을 제공했다.젤리그 해리스(Zellig Harris)는 1954년 논문에서 언어 요소 간의 분포 구조를 분석하여 의미를 파악하는 방법을 제시했다. 그는 변형 문법(Transformational grammar)의 관점에서, 한 언어에서 서로 다른 두개의 언어 형태소 A와 B가 동일한 문맥에서 나타난다면, A와 B는 의미적으로 유사하다고 보았다.
J. R. 퍼스(J. R. Firth)는 1957년 "단어의 의미는 함께 나타나는 단어들에 의해 결정된다"는 유명한 경구를 제시하며 분포 가설의 핵심 아이디어를 강조했다. 그는 1930년부터 1955년까지의 언어 이론 개요를 제시하면서, 단어의 의미는 그 단어가 사용되는 문맥, 즉 주변 단어들과의 관계를 통해 파악할 수 있다고 주장했다.
이후, 1990년대에 스콧 디어워스터(Scott Deerwester), 수잔 듀마이스(Susan Dumais), 조지 퍼너스(George Furnas), 토마스 랜도어(Thomas Landauer), 리차드 하쉬만(Richard Harshman)은 잠재 의미 분석(Latent Semantic Analysis, LSA)이라는 정보 검색 기법을 개발하여 분포 의미론 연구에 중요한 전기를 마련했다.
2. 2. 발전과 확장
스콧 디어워스터(Scott Deerwester), 수잔 듀마이스(Susan Dumais), 조지 퍼너스(George Furnas), 토마스 랜도어(Thomas Landauer) 등은 잠재 의미 분석을 개발했다. J. R. 퍼스(J. R. Firth)는 분포 의미론의 기반이 되는 아이디어를 제시했다. 젤리그 해리스(Zellig Harris)는 분포 가설을 제시했다. 마그누스 살그렌(Magnus Sahlgren)은 단어-문맥 행렬을 사용하는 의미 모델을 개발했다.3. 주요 개념 및 원리
언어학의 '''분포 가설'''(distributional hypothesis)은 언어 사용의 의미론에서 파생되었다. 즉, 동일한 문맥에서 사용되고 발생하는 단어는 유사한 의미를 나타내는 경향이 있다.[22] "단어는 그것이 유지하는 회사에 의해 특징지어진다"는 근본적인 생각은 1950년대 존 루퍼트 퍼스에 의해 대중화되었다.[23]
분포 가설은 통계 의미론의 기초이다. 분포 가설은 언어학에서 시작되었지만[24] 이제는 특히 단어 사용의 맥락과 관련하여 인지과학에서 주목을 받고 있다.[25]
최근 수 년 동안 분포 가설은 언어 학습에서 유사성 기반 일반화 이론의 기초를 제공했다. 즉, 어린이가 유사한 단어의 분포를 통해 그 사용에 대해 일반화함으로써 이전에 거의 접하지 못했던 단어를 사용하는 방법을 알아낼 수 있다는 아이디어이다.[26][27]
분포 가설은 두 단어가 의미적으로 유사할수록 분포적으로 더 유사할 것이며 따라서 유사한 언어적 맥락에서 더 많이 발생하는 경향이 있음을 시사한다.
분포 의미론은 일반적으로 어휘 항목(단어 및 여러 단어로 이루어진 용어)에 적용되어 상당한 성공을 거두었으며, 특히 신경에서 영감을 받은 딥 러닝 모델의 입력 계층으로 적용할 수 있다는 점이 컸지만, 어휘 의미론 즉, 단어의 의미는 전체 발화의 의미 중 일부만을 전달한다. 예: ''"호랑이는 토끼를 좋아한다."''와 같은 절의 의미는 절을 구성하는 세 개의 어휘 항목의 의미를 조사하여 부분적으로만 이해할 수 있다. 분포 의미론은 비구현 항목이 있거나 없는 구문과 같이 더 큰 언어 항목을 포함하도록 직접적으로 확장할 수 있지만 모델의 일부 기본 가정은 다소 조정해야 한다. 구문 문법과 어휘-구문 연속체의 공식은 분포 의미론 모델에 더 정교한 구문을 포함하는 한 가지 접근 방식을 제공하며, 일부 실험은 임의 인덱싱 접근 방식을 사용하여 구현되었다.[18]
구성적 분포 의미론 모델은 구문 기반 규칙을 사용하여 참여하는 어휘 단위의 의미를 결합하여 전체 구 또는 문장의 의미를 특징짓는 ''구성적 모델''을 만드는 명시적 의미 함수를 통해 분포 의미론 모델을 확장한다. 이 연구는 원래 2008년 논문 "의미의 구성적 분포 모델"에서 옥스퍼드 대학교의 Stephen Clark, Bob Coecke, Mehrnoosh Sadrzadeh에 의해 제안되었다.[19] 구성을 위한 다양한 접근 방식(신경망 모델 포함)이 탐구되었으며 SemEval과 같은 기존 워크숍에서 논의되고 있다.[20]
3. 1. 분포 유사성과 의미 유사성
분포 가설은 언어 사용에 대한 의미론에서 파생되었으며, 같은 문맥에서 사용되고 발생하는 단어는 유사한 의미를 나타내는 경향이 있다는 가설이다.[22] "단어는 그 단어가 어울리는 집단에 의해 특징지어진다"는 기본 아이디어는 1950년대 피스에 의해 대중화되었다.[23]분포 가설은 통계 의미론의 기반이 된다.[24] 이 가설은 언어학에서 시작되었지만, 현재는 특히 단어 사용의 맥락과 관련하여 인지 과학에서 주목받고 있다.[25]
최근 몇 년 동안, 분포 가설은 언어 학습에서 유사성 기반 일반화 이론의 기반을 제공해 왔다. 이는 아이들이 이전에 거의 접하지 못한 단어를, 유사한 단어들의 분포로부터 사용에 대한 일반화를 통해 사용하는 방법을 알아낼 수 있다는 생각이다.[26][27]
분포 가설은 두 단어의 의미가 더 유사할수록 분포적으로 더 유사해지고, 따라서 유사한 언어적 문맥에서 나타나는 경향이 더 커진다고 제안한다. 이러한 제안이 성립하는지는 데이터 희소성 문제와 계산 모델링에 있어 중요한 영향을 미치며, 아이들이 비교적 빈약한 입력을 받으면서도 언어를 매우 빠르게 배울 수 있는지에 대한 문제(이는 또한 자극 빈곤 문제로 알려져 있다)에도 중요한 영향을 미친다.
3. 2. 문맥 (Context)
언어학에서 '''분포 가설'''은 언어 사용에 대한 의미론에서 파생되었으며, 같은 문맥에서 사용되고 발생하는 단어는 유사한 의미를 나타내는 경향이 있다는 가설이다.[2] "단어는 그 단어가 어울리는 집단에 의해 특징지어진다"는 기본 아이디어는 1950년대 피스에 의해 대중화되었다.[3]분포 가설은 통계 의미론의 기반이 된다. 이 가설은 언어학에서 시작되었지만,[4] 현재는 특히 단어 사용의 맥락과 관련하여 인지 과학에서 주목받고 있다.[5]
최근 몇 년 동안, 분포 가설은 언어 학습에서 유사성 기반 일반화 이론의 기반을 제공해 왔다. 이는 아이들이 이전에 거의 접하지 못한 단어를, 유사한 단어들의 분포로부터 사용에 대한 일반화를 통해 사용하는 방법을 알아낼 수 있다는 생각이다.[6][7]
분포 가설은 두 단어의 의미가 더 유사할수록 분포적으로 더 유사해지고, 따라서 유사한 언어적 문맥에서 나타나는 경향이 더 커진다고 제안한다. 이러한 제안이 성립하는지는 데이터 희소성 문제와 계산 모델링에 있어 중요한 영향을 미치며,[8] 아이들이 비교적 빈약한 입력을 받으면서도 언어를 매우 빠르게 배울 수 있는지에 대한 문제(이는 또한 자극 빈곤 문제로 알려져 있다)에도 중요한 영향을 미친다.
3. 3. 통계적 측정
4. 벡터 공간 모델
분포 의미론은 계산 도구이자 표현 프레임워크로 선형대수학의 사용을 선호한다. 기본적인 접근 방식은 고차원 벡터에 분포 정보를 수집하고 벡터 유사성을 통해 분포/의미 유사성을 정의하는 것이다.[9] 벡터를 수집하는 데 사용되는 분포 정보의 유형에 따라 다양한 종류의 유사성을 추출할 수 있는데, 언어 항목이 나타나는 텍스트 영역에 대한 정보를 벡터에 채워 '''주제별''' 유사성을 추출할 수 있으며, 항목이 함께 나타나는 다른 언어 항목에 대한 정보를 벡터에 채워 '''패러다임''' 유사성을 추출할 수 있다. 후자의 유형의 벡터는 개별 벡터 구성 요소를 살펴봄으로써 '''구문론적''' 유사성을 추출하는 데에도 사용할 수 있다.
분포적 유사성과 의미적 유사성 간의 상관관계에 대한 기본적인 아이디어는 다양한 방식으로 작동할 수 있다. 잠재 의미 분석(LSA),[10][11] 언어에 대한 하이퍼스페이스 유사체(HAL), 구문 또는 의존성 기반 모델,[12] 랜덤 인덱싱, 의미적 폴딩[13] 및 다양한 토픽 모델 변형을 포함하여 분포 의미론을 구현하는 다양한 계산 모델이 존재한다.[14]
분포 의미론 모델은 주로 다음 매개변수와 관련하여 서로 다르다.
- 문맥 유형 (텍스트 영역 vs. 언어 항목)
- 문맥 윈도우 (크기, 확장 등)
- 빈도 가중치 (예: 엔트로피, 점별 상호 정보량,[15] 등)
- 차원 축소 (예: 랜덤 인덱싱, 특이값 분해, 등)
- 유사성 측정 (예: 코사인 유사도, 민코프스키 거리, 등)
언어 항목을 문맥으로 사용하는 분포 의미론 모델은 '''단어 공간''' 또는 '''벡터 공간 모델'''이라고도 한다.[16][17]
4. 1. 단어 임베딩 (Word Embedding)
분포 의미론은 계산 도구이자 표현 프레임워크로 선형대수학의 사용을 선호한다. 기본적인 접근 방식은 고차원 벡터에 분포 정보를 수집하고 벡터 유사성을 통해 분포/의미 유사성을 정의하는 것이다.[9] 벡터를 수집하는 데 사용되는 분포 정보의 유형에 따라 다양한 종류의 유사성을 추출할 수 있는데, 언어 항목이 나타나는 텍스트 영역에 대한 정보를 벡터에 채워 '''주제별''' 유사성을 추출할 수 있으며, 항목이 함께 나타나는 다른 언어 항목에 대한 정보를 벡터에 채워 '''패러다임''' 유사성을 추출할 수 있다.분포적 유사성과 의미적 유사성 간의 상관관계에 대한 기본적인 아이디어는 다양한 방식으로 작동할 수 있다. 잠재 의미 분석(LSA),[10][11] 언어에 대한 하이퍼스페이스 유사체(HAL), 구문 또는 의존성 기반 모델,[12] 랜덤 인덱싱, 의미적 폴딩[13] 및 다양한 토픽 모델 변형을 포함하여 분포 의미론을 구현하는 다양한 계산 모델이 존재한다.[14]
분포 의미론 모델은 주로 다음 매개변수와 관련하여 서로 다르다.
- 문맥 유형 (텍스트 영역 vs. 언어 항목)
- 문맥 윈도우 (크기, 확장 등)
- 빈도 가중치 (예: 엔트로피, 점별 상호 정보량,[15] 등)
- 차원 축소 (예: 랜덤 인덱싱, 특이값 분해, 등)
- 유사성 측정 (예: 코사인 유사도, 민코프스키 거리, 등)
언어 항목을 문맥으로 사용하는 분포 의미론 모델은 '''단어 공간 또는 벡터 공간 모델'''이라고도 한다.[16][17]
4. 2. 잠재 의미 분석 (Latent Semantic Analysis, LSA)
분포 의미론은 계산 도구이자 표현 프레임워크로 선형대수학의 사용을 선호한다. 기본적인 접근 방식은 고차원 벡터에 분포 정보를 수집하고 벡터 유사성을 통해 분포/의미 유사성을 정의하는 것이다.[9] 벡터를 수집하는 데 사용되는 분포 정보의 유형에 따라 다양한 종류의 유사성을 추출할 수 있다.분포적 유사성과 의미적 유사성 간의 상관관계에 대한 기본적인 아이디어는 다양한 방식으로 작동할 수 있다. 잠재 의미 분석(LSA),[10][11] 언어에 대한 하이퍼스페이스 유사체(HAL), 구문 또는 의존성 기반 모델,[12] 랜덤 인덱싱, 의미적 폴딩[13] 및 다양한 토픽 모델 변형을 포함하여 분포 의미론을 구현하는 다양한 계산 모델이 존재한다.[14]
분포 의미론 모델은 주로 문맥 유형, 문맥 윈도우, 빈도 가중치, 차원 축소, 유사성 측정 과 같은 매개변수를 통해 서로 구별된다.[15] 언어 항목을 문맥으로 사용하는 분포 의미론 모델은 '''단어 공간 또는 벡터 공간 모델'''이라고도 한다.[16][17]
4. 3. 토픽 모델 (Topic Model)
분포 의미론은 계산 도구이자 표현 프레임워크로 선형대수학의 사용을 선호한다. 기본적인 접근 방식은 고차원 벡터에 분포 정보를 수집하고 벡터 유사성을 통해 분포/의미 유사성을 정의하는 것이다.[9] 벡터를 수집하는 데 사용되는 분포 정보의 유형에 따라 다양한 종류의 유사성을 추출할 수 있는데, 언어 항목이 나타나는 텍스트 영역에 대한 정보를 벡터에 채워 '''주제별''' 유사성을 추출할 수 있으며, 항목이 함께 나타나는 다른 언어 항목에 대한 정보를 벡터에 채워 '''패러다임''' 유사성을 추출할 수 있다.분포적 유사성과 의미적 유사성 간의 상관관계에 대한 기본적인 아이디어는 다양한 방식으로 작동할 수 있다. 잠재 의미 분석(LSA),[10][11] 언어에 대한 하이퍼스페이스 유사체(HAL), 구문 또는 의존성 기반 모델,[12] 랜덤 인덱싱, 의미적 폴딩[13] 및 다양한 토픽 모델 변형을 포함하여 분포 의미론을 구현하는 다양한 계산 모델이 존재한다.[14]
분포 의미론 모델은 주로 문맥 유형 (텍스트 영역 vs. 언어 항목), 문맥 윈도우 (크기, 확장 등), 빈도 가중치 (예: 엔트로피, 점별 상호 정보량,[15] 등), 차원 축소 (예: 랜덤 인덱싱, 특이값 분해 등), 유사성 측정 (예: 코사인 유사도, 민코프스키 거리 등)과 같은 매개변수에 따라 달라진다.
언어 항목을 문맥으로 사용하는 분포 의미론 모델은 '''단어 공간''' 또는 '''벡터 공간 모델'''이라고도 한다.[16][17]
5. 응용 분야
분포 의미론적 모델은 다음과 같은 작업에 성공적으로 적용되어 왔다.
6. 한계 및 비판
7. 한국어와 분포 가설
7. 1. 한국어의 특성
7. 2. 한국어 자연어 처리에서의 활용
분포 의미론적 모델은 다음과 같은 작업에 성공적으로 적용되어 왔다.8. 결론 및 전망
참조
[1]
서적
Distributional Semantics
Cambridge University Press
[2]
문서
[3]
문서
[4]
문서
[5]
문서
[6]
문서
[7]
문서
[8]
간행물
Topic Modelling Experiments on Hellenistic Corpora
http://ceur-ws.org/V[...]
2017
[9]
문서
[10]
문서
[11]
논문
A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge.
1997
[12]
문서
[13]
arXiv
Semantic Folding Theory And its Application in Semantic Fingerprinting
2015
[14]
논문
Latent Dirichlet Allocation
http://www.jmlr.org/[...]
2003
[15]
논문
Word association norms, mutual information, and lexicography
Association for Computational Linguistics
1989
[16]
문서
[17]
문서
[18]
논문
High-dimensional distributed semantic spaces for utterances
2019-07
[19]
논문
A compositional distributional model of meaning
http://www.cs.ox.ac.[...]
2008
[20]
웹사이트
SemEval-2014, Task 1
http://alt.qcri.org/[...]
[21]
서적
Distributional Semantics
Cambridge University Press
[22]
문서
[23]
문서
[24]
문서
[25]
문서
[26]
문서
[27]
문서
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com