일반화 벡터 공간 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정의
- 2.1. 유사도 계산
- 2.2. 단어 상관도 구현
3. 의미 정보 처리
- 3.1. 의미적 상관도 계산
  - 3.1.1. 의미적 관련성 측정
  - 3.1.2. 링크드 데이터 활용
참조

1. 개요

일반화 벡터 공간 모델은 단어 간의 상관도 개념을 도입하여 상호 직교성 가정을 버린 정보 검색 모델이다. 각 단어 벡터를 여러 벡터의 선형 조합으로 표현하며, 문서와 질의의 유사도를 계산하는 방식을 제시한다. 또한, 단어 간의 의미적 상관도를 계산하거나, 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식을 통해 의미 정보를 처리한다.

더 읽어볼만한 페이지

벡터 공간 모델 - 명시 의미 분석
명시 의미 분석은 텍스트 모음에서 단어와 문서 간 관계를 분석하여 단어의 의미적 관련성을 추정하는 방법으로, 위키백과 데이터를 활용해 단어를 개념 벡터로 표현하고 코사인 유사도 등으로 관련성을 측정하며, 문서 관련성 계산 등 다양한 분야에 응용된다.
벡터 공간 모델 - Tf-idf
TF-IDF는 단어 빈도와 역문서 빈도를 곱하여 계산하며, 텍스트 마이닝, 정보 검색 등 다양한 분야에서 활용되는 기법이다.

일반화 벡터 공간 모델
정보 검색
종류	정보 검색 모델
일반적인 특성
기반	벡터 공간 모델
설명	벡터 공간 모델의 일반화 정보 검색에 사용

2. 정의

일반화 벡터 공간 모델(GVSM)은 기존 벡터 공간 모델의 단어 간 상호 직교성 가정을 완화하고, 단어 간 상관 관계 개념을 도입한다. 각 단어 벡터 ''t_i''는 ''2ⁿ''개의 벡터 ''m_r'' (여기서 ''r = 1...2ⁿ'')의 선형 조합으로 표현되는 새로운 공간을 고려한다.

최근에는 단어 간의 의미적 상관 관계를 계산하거나 대규모 말뭉치에서 빈도 동시 발생 통계를 계산하는 두 가지 방향으로 연구가 진행되고 있다. Tsatsaronis^[2]는 WordNet과 같은 시소러스를 사용하여 의미적 관련성(SR)을 측정하는 방식에 집중하였다. 이들은 경로 길이(간결성, SCM)와 경로 깊이(의미적 경로 정교화, SPE)를 고려하여 다음과 같이 $t_i \cdot t_j$ 내적을 추정한다.

$t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)$

여기서 ''s_i''와 ''s_j''는 각각 용어 ''t_i''와 ''t_j''의 의미이며, $SCM \cdot SPE$ 를 최대화한다.

또한, Waitelonis 등^[3]은 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산하는 방식을 제안했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.

2. 1. 유사도 계산

일반화 벡터 공간 모델은 단어 간 상호 직교성 가정을 버리고 단어 간 상관도 개념을 도입하였다. 각 단어 벡터 ''t_i''는 ''2ⁿ''개의 벡터 ''m_r''의 선형 조합으로 표현된다. (여기서 ''r = 1...2ⁿ''이다.)

문서 ''d_k''와 질의 ''q''의 유사도는 다음과 같이 계산된다.

:

sim(d_k,q) = \frac{\sum _{j=1}^n \sum _{i=1}^n w_{i,k}*w_{j,q}*t_i \cdot t_j }{\sqrt{\sum _{i=1}^n w_{i,k}^2}*\sqrt{\sum _{i=1}^n w_{i,q}^2}}

''t_i''와 ''t_j''는 ''2ⁿ''차원 공간의 벡터이다.

단어 상관도

t_i \cdot t_j

는 여러 가지 방식으로 구현될 수 있다. 웡의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.

2. 2. 단어 상관도 구현

일반화 벡터 공간 모델은 단어간 상관도 개념을 도입하여, 각 단어 벡터 ''t_i''가 ''2ⁿ''개의 벡터 ''m_r''의 선형 조합으로 표현되는 새로운 공간 개념을 사용한다. 여기서 ''r = 1...2ⁿ''이다.

문서 ''d_k''와 질의 ''q''의 유사도는 다음과 같이 계산된다.

:

sim(d_k,q) = \frac{\sum _{j=1}^n \sum _{i=1}^n w_{i,k}*w_{j,q}*t_i \cdot t_j }{\sqrt{\sum _{i=1}^n w_{i,k}^2}*\sqrt{\sum _{i=1}^n w_{i,q}^2}}

''t_i''와 ''t_j''는 ''2ⁿ''차원 공간의 벡터이다.

단어 상관도

t_i \cdot t_j

는 여러 가지 방식으로 구현될 수 있다. 웡(Wong)의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.

3. 의미 정보 처리

정보 검색 모델에서 단어 간 관련성을 고려하는 방식에는 크게 두 가지가 있다.^[5]

# 단어 간의 의미적 상관도를 계산하는 방식

# 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식

최근 차차로니스(Tsatsaronis)는 의미적 상관도를 계산하는 방식에 대해 연구하였다.^[2]^[5] Waitelonis 등은 링크된 공개 데이터를 활용하여 의미적 관련성을 계산하는 방법을 연구했다.^[3]

3. 1. 의미적 상관도 계산

정보 검색 모델에서 정확한 키워드 일치를 넘어서 단어 간의 연관성을 포함시키는 방법에는 크게 두 가지가 있다. 첫째는 단어 간의 의미적 상관 관계를 계산하는 것이고, 둘째는 대규모 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 것이다.

3. 1. 1. 의미적 관련성 측정

정보 검색 모델에서 단어 간 관련성을 고려하는 방식에는 크게 두 가지가 있다.^[5]

# 단어 간의 의미적 상관 관계를 계산하는 방식

# 대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식

최근 차차로니스(Tsatsaronis)가 발표한 논문에서는 첫 번째 방식에 대해 자세히 다루었다.^[5] 이 논문에서는 워드넷과 같은 유의어 사전(''O'')을 이용해 의미적 관련성(semantic relatedness, ''SR'')을 계산했다. 밀도(compactness, ''SCM'')에 의해 구해지는 경로 길이(path length)와 의미적 길이 합성(sementic path elaboration, ''SPE'')에 의해 구해지는 경로 깊이(path depth) 개념이 사용되었다.

유사도 공식에 포함된

t_i \cdot t_j

값은 다음과 같이 계산되었다.

t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)

''s_i''와 ''s_j''는 각각 단어 ''t_i''와 ''t_j''의 의미이며,

SCM \cdot SPE

를 최대화하는 값으로 결정된다.^[2]

또한, Waitelonis 등은 첫 번째 접근 방식을 기반으로 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산했다.^[3] 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.

3. 1. 2. 링크드 데이터 활용

Tsatsaronis^[2]는 WordNet과 같은 시소러스(O)를 사용하여 의미적 관련성(SR)을 측정하는 방식에 집중했다. 이는 간결성(SCM)으로 캡처된 경로 길이와 의미적 경로 정교화(SPE)로 캡처된 경로 깊이를 고려한다. 이들은

t_i \cdot t_j

내적을 다음과 같이 추정한다.

t_i \cdot t_j = SR((t_i, t_j), (s_i, s_j), O)

여기서 ''s_i''와 ''s_j''는 각각 용어 ''t_i''와 ''t_j''의 의미이며,

SCM \cdot SPE

를 최대화한다.

Waitelonis 등^[3]은 DBpedia 및 YAGO 분류법을 포함한 링크된 공개 데이터 리소스에서 의미적 관련성을 계산했다. 이들은 명명된 개체 연결 후 문서 및 쿼리에서 의미적 개체 간의 분류학적 관계를 활용한다.

참조

_[1] 간행물 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '85 SIGIR ACM 1985-06-05
_[2] 간행물 A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness http://www.aclweb.or[...] EACL ACM 2009-04-02
_[3] 간행물 Linked Data enabled Generalized Vector Space Model to improve document retrieval http://ceur-ws.org/V[...] ISWC 2015, CEUR-WS 1581 2015-09-11
_[4] 간행물 Generalized vector spaces model in information retrieval http://doi.acm.org/1[...] SIGIR ACM 1985-06-05
_[5] 간행물 A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness http://www.aclweb.or[...] EACL ACM 2009-04-02

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com