일반화 벡터 공간 모델
1. 개요
일반화 벡터 공간 모델은 단어 간의 상관도 개념을 도입하여 상호 직교성 가정을 버린 정보 검색 모델이다. 각 단어 벡터를 여러 벡터의 선형 조합으로 표현하며, 문서와 질의의 유사도를 계산하는 방식을 제시한다. 또한, 단어 간의 의미적 상관도를 계산하거나, 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식을 통해 의미 정보를 처리한다.
| 종류 | 정보 검색 모델 |
|---|
| 기반 | 벡터 공간 모델 |
|---|---|
| 설명 | 벡터 공간 모델의 일반화 정보 검색에 사용 |
2. 정의
일반화 벡터 공간 모델(GVSM)은 기존 벡터 공간 모델의 단어 간 상호 직교성 가정을 완화하고, 단어 간 상관 관계 개념을 도입한다. 각 단어 벡터 ti는 2n개의 벡터 mr (여기서 r = 1...2n)의 선형 조합으로 표현되는 새로운 공간을 고려한다.
최근에는 단어 간의 의미적 상관 관계를 계산하거나 대규모 말뭉치에서 빈도 동시 발생 통계를 계산하는 두 가지 방향으로 연구가 진행되고 있다. Tsatsaronis는 WordNet과 같은 시소러스를 사용하여 의미적 관련성(SR)을 측정하는 방식에 집중하였다. 이들은 경로 길이(간결성, SCM)와 경로 깊이(의미적 경로 정교화, SPE)를 고려하여 다음과 같이 내적을 추정한다.
여기서 si와 sj는 각각 용어 ti와 tj의 의미이며, 를 최대화한다.
또한, Waitelonis 등은 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산하는 방식을 제안했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.
2.1. 유사도 계산
일반화 벡터 공간 모델은 단어 간 상호 직교성 가정을 버리고 단어 간 상관도 개념을 도입하였다. 각 단어 벡터 ti는 2n개의 벡터 mr의 선형 조합으로 표현된다. (여기서 r = 1...2n이다.)
문서 dk와 질의 q의 유사도는 다음과 같이 계산된다.
:
ti와 tj는 2n차원 공간의 벡터이다.
단어 상관도 는 여러 가지 방식으로 구현될 수 있다. 웡의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.
2.2. 단어 상관도 구현
일반화 벡터 공간 모델은 단어간 상관도 개념을 도입하여, 각 단어 벡터 ti가 2n개의 벡터 mr의 선형 조합으로 표현되는 새로운 공간 개념을 사용한다. 여기서 r = 1...2n이다.
문서 dk와 질의 q의 유사도는 다음과 같이 계산된다.
:
ti와 tj는 2n차원 공간의 벡터이다.
단어 상관도 는 여러 가지 방식으로 구현될 수 있다. 웡(Wong)의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.
3. 의미 정보 처리
정보 검색 모델에서 단어 간 관련성을 고려하는 방식에는 크게 두 가지가 있다.
# 단어 간의 의미적 상관도를 계산하는 방식
# 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식
최근 차차로니스(Tsatsaronis)는 의미적 상관도를 계산하는 방식에 대해 연구하였다. Waitelonis 등은 링크된 공개 데이터를 활용하여 의미적 관련성을 계산하는 방법을 연구했다.
3.1. 의미적 상관도 계산
정보 검색 모델에서 정확한 키워드 일치를 넘어서 단어 간의 연관성을 포함시키는 방법에는 크게 두 가지가 있다. 첫째는 단어 간의 의미적 상관 관계를 계산하는 것이고, 둘째는 대규모 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 것이다.
3.1.1. 의미적 관련성 측정
정보 검색 모델에서 단어 간 관련성을 고려하는 방식에는 크게 두 가지가 있다.
# 단어 간의 의미적 상관 관계를 계산하는 방식
# 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식
최근 차차로니스(Tsatsaronis)가 발표한 논문에서는 첫 번째 방식에 대해 자세히 다루었다. 이 논문에서는 워드넷과 같은 유의어 사전(O)을 이용해 의미적 관련성(semantic relatedness, SR)을 계산했다. 밀도(compactness, SCM)에 의해 구해지는 경로 길이(path length)와 의미적 길이 합성(sementic path elaboration, SPE)에 의해 구해지는 경로 깊이(path depth) 개념이 사용되었다.
유사도 공식에 포함된 값은 다음과 같이 계산되었다.
si와 sj는 각각 단어 ti와 tj의 의미이며, 를 최대화하는 값으로 결정된다.
또한, Waitelonis 등은 첫 번째 접근 방식을 기반으로 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.
3.1.2. 링크드 데이터 활용
Tsatsaronis는 WordNet과 같은 시소러스(O)를 사용하여 의미적 관련성(SR)을 측정하는 방식에 집중했다. 이는 간결성(SCM)으로 캡처된 경로 길이와 의미적 경로 정교화(SPE)로 캡처된 경로 깊이를 고려한다. 이들은 내적을 다음과 같이 추정한다.
여기서 si와 sj는 각각 용어 ti와 tj의 의미이며, 를 최대화한다.
Waitelonis 등은 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.