일반화 벡터 공간 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

일반화 벡터 공간 모델은 단어 간의 상관도 개념을 도입하여 상호 직교성 가정을 버린 정보 검색 모델이다. 각 단어 벡터를 여러 벡터의 선형 조합으로 표현하며, 문서와 질의의 유사도를 계산하는 방식을 제시한다. 또한, 단어 간의 의미적 상관도를 계산하거나, 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식을 통해 의미 정보를 처리한다.

일반화 벡터 공간 모델

정보 검색

종류	정보 검색 모델

일반적인 특성

기반	벡터 공간 모델
설명	벡터 공간 모델의 일반화 정보 검색에 사용

📚 더 읽어볼만한 페이지

벡터 공간 모델 - 명시 의미 분석
명시 의미 분석은 텍스트 모음에서 단어와 문서 간 관계를 분석하여 단어의 의미적 관련성을 추정하는 방법으로, 위키백과 데이터를 활용해 단어를 개념 벡터로 표현하고 코사인 유사도 등으로 관련성을 측정하며, 문서 관련성 계산 등 다양한 분야에 응용된다.
벡터 공간 모델 - Tf-idf
TF-IDF는 단어 빈도와 역문서 빈도를 곱하여 계산하며, 텍스트 마이닝, 정보 검색 등 다양한 분야에서 활용되는 기법이다.

1. 개요
2. 정의
- 2.1. 유사도 계산
- 2.2. 단어 상관도 구현
3. 의미 정보 처리
- 3.1. 의미적 상관도 계산
  - 3.1.1. 의미적 관련성 측정
  - 3.1.2. 링크드 데이터 활용

2. 정의

일반화 벡터 공간 모델(GVSM)은 기존 벡터 공간 모델의 단어 간 상호 직교성 가정을 완화하고, 단어 간 상관 관계 개념을 도입한다. 각 단어 벡터 t_i는 2ⁿ개의 벡터 m_r (여기서 r = 1...2ⁿ)의 선형 조합으로 표현되는 새로운 공간을 고려한다.

최근에는 단어 간의 의미적 상관 관계를 계산하거나 대규모 말뭉치에서 빈도 동시 발생 통계를 계산하는 두 가지 방향으로 연구가 진행되고 있다. Tsatsaronis는 WordNet과 같은 시소러스를 사용하여 의미적 관련성(SR)을 측정하는 방식에 집중하였다. 이들은 경로 길이(간결성, SCM)와 경로 깊이(의미적 경로 정교화, SPE)를 고려하여 다음과 같이 $t_i \cdot t_j$ 내적을 추정한다.

$t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)$

여기서 s_i와 s_j는 각각 용어 t_i와 t_j의 의미이며, $SCM \cdot SPE$ 를 최대화한다.

또한, Waitelonis 등은 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산하는 방식을 제안했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.

2.1. 유사도 계산

일반화 벡터 공간 모델은 단어 간 상호 직교성 가정을 버리고 단어 간 상관도 개념을 도입하였다. 각 단어 벡터 t_i는 2ⁿ개의 벡터 m_r의 선형 조합으로 표현된다. (여기서 r = 1...2ⁿ이다.)

문서 d_k와 질의 q의 유사도는 다음과 같이 계산된다.

: $sim(d_k,q) = \frac{\sum _{j=1}^n \sum _{i=1}^n w_{i,k}*w_{j,q}*t_i \cdot t_j }{\sqrt{\sum _{i=1}^n w_{i,k}^2}*\sqrt{\sum _{i=1}^n w_{i,q}^2}}$

t_i와 t_j는 2ⁿ차원 공간의 벡터이다.

단어 상관도 $t_i \cdot t_j$ 는 여러 가지 방식으로 구현될 수 있다. 웡의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.

2.2. 단어 상관도 구현

일반화 벡터 공간 모델은 단어간 상관도 개념을 도입하여, 각 단어 벡터 t_i가 2ⁿ개의 벡터 m_r의 선형 조합으로 표현되는 새로운 공간 개념을 사용한다. 여기서 r = 1...2ⁿ이다.

문서 d_k와 질의 q의 유사도는 다음과 같이 계산된다.

: $sim(d_k,q) = \frac{\sum _{j=1}^n \sum _{i=1}^n w_{i,k}*w_{j,q}*t_i \cdot t_j }{\sqrt{\sum _{i=1}^n w_{i,k}^2}*\sqrt{\sum _{i=1}^n w_{i,q}^2}}$

t_i와 t_j는 2ⁿ차원 공간의 벡터이다.

단어 상관도 $t_i \cdot t_j$ 는 여러 가지 방식으로 구현될 수 있다. 웡(Wong)의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.

3. 의미 정보 처리

정보 검색 모델에서 단어 간 관련성을 고려하는 방식에는 크게 두 가지가 있다.

# 단어 간의 의미적 상관도를 계산하는 방식
# 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식

최근 차차로니스(Tsatsaronis)는 의미적 상관도를 계산하는 방식에 대해 연구하였다. Waitelonis 등은 링크된 공개 데이터를 활용하여 의미적 관련성을 계산하는 방법을 연구했다.

3.1. 의미적 상관도 계산

정보 검색 모델에서 정확한 키워드 일치를 넘어서 단어 간의 연관성을 포함시키는 방법에는 크게 두 가지가 있다. 첫째는 단어 간의 의미적 상관 관계를 계산하는 것이고, 둘째는 대규모 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 것이다.

3.1.1. 의미적 관련성 측정

정보 검색 모델에서 단어 간 관련성을 고려하는 방식에는 크게 두 가지가 있다.

# 단어 간의 의미적 상관 관계를 계산하는 방식
# 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식

최근 차차로니스(Tsatsaronis)가 발표한 논문에서는 첫 번째 방식에 대해 자세히 다루었다. 이 논문에서는 워드넷과 같은 유의어 사전(O)을 이용해 의미적 관련성(semantic relatedness, SR)을 계산했다. 밀도(compactness, SCM)에 의해 구해지는 경로 길이(path length)와 의미적 길이 합성(sementic path elaboration, SPE)에 의해 구해지는 경로 깊이(path depth) 개념이 사용되었다.

유사도 공식에 포함된 $t_i \cdot t_j$ 값은 다음과 같이 계산되었다.

$t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)$

s_i와 s_j는 각각 단어 t_i와 t_j의 의미이며, $SCM \cdot SPE$ 를 최대화하는 값으로 결정된다.

또한, Waitelonis 등은 첫 번째 접근 방식을 기반으로 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.

3.1.2. 링크드 데이터 활용

Tsatsaronis는 WordNet과 같은 시소러스(O)를 사용하여 의미적 관련성(SR)을 측정하는 방식에 집중했다. 이는 간결성(SCM)으로 캡처된 경로 길이와 의미적 경로 정교화(SPE)로 캡처된 경로 깊이를 고려한다. 이들은 $t_i \cdot t_j$ 내적을 다음과 같이 추정한다.

$t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)$

여기서 s_i와 s_j는 각각 용어 t_i와 t_j의 의미이며, $SCM \cdot SPE$ 를 최대화한다.

Waitelonis 등은 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.