맨위로가기

워드 임베딩

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

워드 임베딩은 단어를 벡터 공간에 표현하는 기술로, 단어의 의미와 문맥 정보를 학습하여 단어 간의 유사성을 파악하는 데 사용된다. 초기에는 벡터 공간 모델과 잠재 의미 분석 등의 기법이 활용되었으며, 2000년대 이후 신경망 기반 모델과 word2vec과 같은 툴킷의 개발로 발전했다. 다의어와 동음이의어 문제를 해결하기 위해 다중 의미 임베딩과 문맥 기반 임베딩 연구가 진행되었으며, 대조 학습을 통해 단어 간의 관계를 학습하기도 한다. 생물정보학 및 사고 벡터 분야에도 활용되며, word2vec, GloVe, BERT 등 다양한 소프트웨어가 개발되었다. 그러나 훈련 데이터에 포함된 편향과 고정관념을 반영할 수 있다는 윤리적 문제가 존재하며, 특히 한국어의 경우 사회적, 문화적 맥락을 고려하여 편향성을 검토해야 한다.

더 읽어볼만한 페이지

  • 언어 모델 - 환각 (인공지능)
    인공지능 환각은 인공지능이 사실이 아닌 정보를 사실처럼 생성하는 현상으로, 대규모 언어 모델의 부정확한 정보 생성 문제를 설명하기 위해 사용되며, 데이터 불일치, 모델 오류, 훈련 데이터 부족 등이 원인으로 발생하여 다양한 완화 기술이 연구되고 있다.
  • 언어 모델 - N-그램
    N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.
  • 의미 유사도 - 반의어
    반의어는 의미가 반대되는 낱말이나 어구로, 한자 구성 방식이나 의미상 관계에 따라 분류되지만, 품사가 항상 같지 않고 문맥에 따라 관계가 달라지는 모호성을 지니며, 언어의 문화적 배경과 사용 문맥에 의존한다.
  • 의미 유사도 - 시맨틱 네트워크
    시맨틱 네트워크는 개념 간의 관계를 표현하는 지식 표현 방법으로, 노드와 링크를 사용하여 지식을 구조화하며 인공지능, 언어학 등 다양한 분야에서 활용된다.
  • 전산언어학 - 알고리즘
    알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다.
  • 전산언어학 - 단어 의미 중의성 해소
    단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
워드 임베딩
자연어 처리에서의 단어 임베딩
유형자연어 처리 방법
개요
목적단어를 실수 벡터로 표현
설명단어 임베딩(word embedding)은 자연어 처리(NLP)에서 단어나 구(phrase)를 실수 벡터(real number vector)로 표현하는 방법을 말한다. 이는 단어의 의미론적, 문법적 정보를 벡터 공간에 투영하여 단어 간의 유사도를 측정하거나, 단어를 feature로 사용하여 다양한 NLP task를 수행하는 데 활용된다.
단어 임베딩은 단어의 의미를 분산 표현(distributed representation)으로 나타낸다. 즉, 각 단어를 고정된 차원의 벡터로 표현하며, 벡터의 각 요소는 단어의 특정 의미적, 문법적 속성을 나타낸다. 이러한 분산 표현은 단어 간의 유사도를 계산하고, 단어의 의미를 효과적으로 파악하는 데 유용하다.
전통적인 자연어 처리에서는 단어를 one-hot vector로 표현하는 방법을 사용했다. One-hot vector는 단어 집합(vocabulary)의 크기만큼의 차원을 가지며, 해당 단어의 위치에만 1을, 나머지는 0을 할당하는 방식이다. 하지만 one-hot vector는 단어 간의 의미적 유사도를 전혀 반영하지 못한다는 단점이 있다.
단어 임베딩은 이러한 one-hot vector의 단점을 극복하고, 단어의 의미를 효과적으로 표현하기 위해 제안되었다. 단어 임베딩은 단어 간의 의미적 유사도를 반영하여 단어를 벡터 공간에 배치하며, 이를 통해 다양한 NLP task의 성능을 향상시킬 수 있다.
역사
초기 연구2000년대 초, 단어의 의미를 벡터 공간에 표현하려는 시도가 있었다.
Word2Vec2013년, 토마스 미콜로프 등이 Word2Vec을 발표하면서 단어 임베딩이 주목받기 시작했다.
GloVe2014년, GloVe가 발표되면서 단어 임베딩 연구가 더욱 활발해졌다.
방법
통계 기반 방법단어-문서 행렬(word-document matrix), 특이값 분해(SVD) 등을 이용하여 단어 임베딩을 학습한다.
잠재 의미 분석(LSA), Hellinger PCA 등이 있다.
신경망 기반 방법Word2Vec, GloVe, fastText 등이 있다.
대규모 말뭉치(corpus)를 이용하여 단어 임베딩을 학습한다.
신경망을 사용하여 단어의 문맥(context)을 예측하거나, 단어와 문맥 간의 관계를 학습한다.
Explicit 의미 모델차원 축소 기술을 사용하여 단어 임베딩을 생성한다.
통계적 자연어 처리에서 사용되는 단어-문맥 행렬을 사용한다.
특징
의미적 유사도단어 임베딩은 단어 간의 의미적 유사도를 반영한다.
문법적 유사도단어 임베딩은 단어 간의 문법적 유사도를 반영한다.
분산 표현단어 임베딩은 단어를 분산 표현으로 나타낸다.
활용
자연어 처리 task기계 번역
질의 응답
감성 분석
텍스트 요약
개체명 인식
의미역 결정
평가
단어 유사도 평가단어 임베딩이 단어 간의 의미적 유사도를 얼마나 잘 반영하는지 평가한다.
단어 유추 평가단어 임베딩이 단어 간의 관계를 얼마나 잘 포착하는지 평가한다.
downstream task 평가단어 임베딩을 이용하여 다양한 NLP task를 수행하고, 성능을 평가한다.

2. 기술의 발전

분포 의미론 연구에서 시작된 워드 임베딩은 "단어는 주변에 의해 특징지어진다"는 존 루퍼트 퍼스의 아이디어를 기반으로 한다.[12] 초기에는 정보 검색을 위한 벡터 공간 모델로 개발되었으며,[15][16][17] 이후 잠재 의미 분석(LSA) 등의 기법을 거쳐[18][19][20][21] 신경망 기반의 word2vec 등으로 발전하였다.

2. 1. 초기 모델

워드 임베딩 기법은 1960년대 정보 검색벡터 공간 모델 개발에서 시작되었다.[70] 1980년대 후반에는 특이값 분해(SVD)를 사용하여 차원 수를 줄인 잠재 의미 분석(LSA)이 도입되었다.[70]

2. 2. 신경망 기반 모델

2000년에 요슈아 벤지오 등은 "신경 확률 언어 모델"이라는 일련의 논문에서 "단어에 대한 분산 표현을 학습"하여 문맥에서 단어 표현의 높은 차원을 줄였다.[22][23][24]

NeurIPS (NIPS) 2002년에 발표된 연구에서는 커널 CCA 방식을 바이링구얼(및 다국어) 코퍼스에 적용하여 단어와 문서 임베딩을 모두 사용하는 것을 소개했으며, 단어 임베딩의 자기 지도 학습의 초기 사례를 제공했다.[25]

약 2005년 이후의 대부분의 새로운 워드 임베딩 기술은 요슈아 벤지오[28]와 그의 동료들이 수행한 기초 연구 이후, 확률적이고 대수적인 모델 대신 신경망 아키텍처에 의존한다.[29][30]

이 접근 방식은 2010년에 벡터의 품질과 모델의 훈련 속도에 대한 이론적 진전이 이루어진 후, 그리고 하드웨어의 발전으로 더 넓은 매개변수 공간을 수익성 있게 탐색할 수 있게 된 후 많은 연구 그룹에서 채택되었다. 2013년 토마스 미콜로프가 이끄는 구글의 한 팀은 이전 방식보다 더 빠르게 벡터 공간 모델을 훈련할 수 있는 워드 임베딩 툴킷인 word2vec을 만들었다.[31] word2vec 방식은 실험에서 널리 사용되었으며, 워드 임베딩을 기술로 인식하는 데 기여했으며, 이 연구 분야를 전문화된 연구에서 더 광범위한 실험으로 이동시키고 결국 실용적인 응용 분야를 위한 길을 열었다.[31]

3. 다의성과 동음이의어

워드 임베딩(일반적으로 단어 벡터 공간 모델)은 여러 의미를 가진 단어가 단일 표현(의미 공간의 단일 벡터)으로 통합되어 다의성과 동음이의어를 제대로 처리하지 못하는 한계가 있다. 예를 들어, "어제 사용해본 클럽은 최고였습니다!"라는 문장에서 '클럽'이라는 단어가 클럽 샌드위치, 야구 클럽, 클럽하우스, 골프 클럽 중 어떤 의미로 쓰였는지 명확하지 않다.[76][77]

3. 1. 다중 의미 임베딩

과거에는 정적 단어 임베딩 또는 단어 벡터 공간 모델의 주요 한계 중 하나는 여러 의미를 가진 단어가 단일 표현(의미 공간의 단일 벡터)으로 병합된다는 것이었다. 즉, 다의성과 동음이의어가 제대로 처리되지 않았다. 예를 들어, "어제 시도한 클럽은 훌륭했다!"라는 문장에서 '클럽'이라는 용어가 '클럽 샌드위치', '클럽하우스', '골프 클럽' 또는 '클럽'이 가질 수 있는 다른 의미와 관련이 있는지 명확하지 않다. 단어당 여러 의미를 서로 다른 벡터로 수용해야 할 필요성(다중 의미 임베딩)은 단일 의미 임베딩을 다중 의미 임베딩으로 분할하기 위한 NLP의 여러 기여에 대한 동기가 되었다.[32][33]

다중 의미 임베딩을 생성하는 대부분의 접근 방식은 단어 의미 표현에 대해 크게 두 가지 범주, 즉 비지도 학습과 지식 기반으로 나눌 수 있다.[34] word2vec skip-gram을 기반으로 하는 다중 의미 Skip-Gram(MSSG)[35]은 각 단어에 특정 수의 의미가 있다고 가정하면서 훈련 시간을 개선하면서 단어 의미 구별 및 임베딩을 동시에 수행한다. 비모수적 다중 의미 Skip-Gram(NP-MSSG)에서 이 수는 각 단어에 따라 다를 수 있다. WordNet, 개념망(Open Mind Common Sense), BabelNet과 같은 사전 지식, 단어 임베딩 및 단어 의미 모호성 해소를 결합하여 최적 의미 주석(MSSA)[36]는 단어의 문맥을 사전 정의된 슬라이딩 윈도우로 고려하여 비지도 및 지식 기반 접근 방식을 통해 단어 의미에 레이블을 지정한다. 단어가 모호성을 제거하면 표준 단어 임베딩 기술에 사용할 수 있으므로 다중 의미 임베딩이 생성된다. MSSA 아키텍처는 모호성 제거 및 주석 프로세스를 자체적으로 개선하는 방식으로 반복적으로 수행할 수 있도록 한다.[37]

다중 의미 임베딩을 사용하면 품사 태깅, 의미 관계 식별, 의미적 관련성, 개체명 인식 및 감성 분석과 같은 여러 NLP 작업의 성능이 향상되는 것으로 알려져 있다.[38][39]

3. 2. 문맥 기반 임베딩

과거에는 정적 단어 임베딩 또는 단어 벡터 공간 모델의 주요 한계 중 하나는 여러 의미를 가진 단어가 단일 표현(의미 공간의 단일 벡터)으로 병합된다는 것이었다. 즉, 다의성과 동음이의어가 제대로 처리되지 않았다. 예를 들어, "어제 시도한 클럽은 훌륭했다!"라는 문장에서 '클럽'이라는 용어가 '클럽 샌드위치', '클럽하우스', '골프 클럽' 또는 '클럽'이 가질 수 있는 다른 의미와 관련이 있는지 명확하지 않다. 단어당 여러 의미를 서로 다른 벡터로 수용해야 할 필요성(다중 의미 임베딩)은 단일 의미 임베딩을 다중 의미 임베딩으로 분할하기 위한 NLP의 여러 기여에 대한 동기가 되었다.[32][33]

다중 의미 임베딩을 생성하는 대부분의 접근 방식은 단어 의미 표현에 대해 크게 두 가지 범주, 즉 비지도 학습과 지식 기반으로 나눌 수 있다.[34] word2vec skip-gram을 기반으로 하는 다중 의미 Skip-Gram(MSSG)[35]은 각 단어에 특정 수의 의미가 있다고 가정하면서 훈련 시간을 개선하면서 단어 의미 구별 및 임베딩을 동시에 수행한다. 비모수적 다중 의미 Skip-Gram(NP-MSSG)에서 이 수는 각 단어에 따라 다를 수 있다. WordNet, 개념망(Open Mind Common Sense), BabelNet과 같은 사전 지식, 단어 임베딩 및 단어 의미 모호성 해소를 결합하여 최적 의미 주석(MSSA)[36]는 단어의 문맥을 사전 정의된 슬라이딩 윈도우로 고려하여 비지도 및 지식 기반 접근 방식을 통해 단어 의미에 레이블을 지정한다. 단어가 모호성을 제거하면 표준 단어 임베딩 기술에 사용할 수 있으므로 다중 의미 임베딩이 생성된다. MSSA 아키텍처는 모호성 제거 및 주석 프로세스를 자체적으로 개선하는 방식으로 반복적으로 수행할 수 있도록 한다.[37]

다중 의미 임베딩을 사용하면 품사 태깅, 의미 관계 식별, 의미적 관련성, 개체명 인식 및 감성 분석과 같은 여러 NLP 작업의 성능이 향상되는 것으로 알려져 있다.[38][39]

2010년대 후반, ELMo 및 BERT와 같은 문맥 기반 임베딩이 개발되었다.[40] 정적 단어 임베딩과 달리 이러한 임베딩은 토큰 수준이며, 단어의 각 발생은 자체 임베딩을 갖는다. 이러한 임베딩은 단어의 다중 의미 특성을 더 잘 반영하는데, 유사한 문맥에서 단어의 발생은 BERT의 임베딩 공간의 유사한 영역에 위치하기 때문이다.[41][42]

4. 방법

분포 의미론에서 언어의 의미를 이해하기 위한 양적 방법론적 접근 방식인 워드 임베딩은 오랫동안 지식 표현으로 사용되어 왔다.[11] 이러한 모델은 대규모 언어 데이터 샘플에서 언어 항목 간의 분포적 특성을 기반으로 의미적 유사성을 정량화하고 분류하는 것을 목표로 한다. "단어는 그것과 함께하는 회사에 의해 특징지어진다"는 기본 아이디어는 1957년 존 루퍼트 퍼스의 논문에서 제안되었으며,[12] 검색 시스템에 대한 연구와[13] 인지 심리학에도 뿌리를 두고 있다.[14]

단어를 벡터 또는 임베딩으로 표현하는 의미 공간의 개념은 분포 특성을 포착하고 이를 단어 간의 유사성을 측정하는 데 사용된다. 1세대 의미 공간 모델은 정보 검색을 위한 벡터 공간 모델이다.[15][16][17] 이러한 벡터 공간 모델은 매우 희소한 고차원 벡터 공간을 생성한다. 특이값 분해와 같은 방법을 사용하여 차원 수를 줄이는 방식으로, 1980년대 후반에 잠재 의미 분석과 단어 동시 발생 컨텍스트를 수집하기 위한 랜덤 인덱싱 방식이 도입되었다.[18][19][20][21] 2000년에 벵조 등은 "신경 확률 언어 모델"이라는 일련의 논문에서 단어 표현의 높은 차원을 줄였다.[22][23][24]

NeurIPS (NIPS) 2002년에는 단어와 문서 임베딩을 모두 사용하는 것을 소개했으며, 단어 임베딩의 자기 지도 학습의 초기 사례를 제공했다.[25]

워드 임베딩에는 두 가지 스타일이 있는데, 하나는 단어가 함께 발생하는 단어의 벡터로 표현되는 방식이고, 다른 하나는 단어가 발생하는 언어적 컨텍스트의 벡터로 표현되는 방식이다. Roweis와 Saul은 ''사이언스''에 "국소 선형 임베딩"(LLE)을 사용하여 고차원 데이터 구조의 표현을 발견하는 방법을 발표했다.[27] 2005년 이후의 대부분의 새로운 워드 임베딩 기술은 신경망 아키텍처에 의존한다.[29][30]

2010년에는 벡터의 품질과 모델의 훈련 속도에 대한 이론적 진전이 이루어졌고, 하드웨어의 발전으로 더 넓은 매개변수 공간을 탐색할 수 있게 되었다. 2013년 토마스 미콜로프가 이끄는 구글의 한 팀은 word2vec을 만들었다. word2vec 방식은 실험에서 널리 사용되었으며, 워드 임베딩 기술 인식에 기여했다.[31]

4. 1. 대조 학습

대조 학습(contrastive learning|컨트래스티브 러닝영어)은 앵커-양성 예시/음성 예시 간의 거리 최적화를 기반으로 하는 기계 학습의 총칭이다.[82][83]

대조 학습에서는 먼저 기준이 되는 샘플(앵커), 앵커와 같은 클래스에 속하는 샘플(양성 예시) 및 다른 클래스에 속하는 샘플(음성 예시)을 준비한다. 다음으로 인코더를 통해 샘플, 양성 예시, 음성 예시를 임베딩 공간에 투영하고, 이 공간 내에서 앵커-양성 예시 간 거리와 앵커-음성 예시 간 거리를 측정한다. 같은 클래스에 속하는 전자의 거리는 작게, 다른 클래스에 속하는 후자의 거리는 크게 되어야 하므로, 이를 손실로 하여 인코더를 학습한다. 충분한 학습을 통해 샘플 간의 거리 관계를 표현하는 임베딩 공간을 얻을 수 있다. (c.f. 거리 학습).

레이블 없이 양성 예시와 음성 예시를 준비하면 자기 지도 학습으로, 교사 레이블을 기반으로 양성 예시와 음성 예시를 준비하면 지도 학습으로 학습된다.[84]

대조 학습을 사용하면 단어 간의 관계를 거리로 표현한 임베딩 공간이 학습되며, 추론 시에는 인코더를 통해 단어의 임베딩을 얻을 수 있다.

5. 생물학적 배열

BioVectors (BioVec)는 DNA, RNA, 단백질 서열 등 생물학적 서열의 n-그램에 대한 임베딩이다.[43][85] ProtVec (단백질), GeneVec (유전자) 등 단백질체학, 유전체학 분야의 딥 러닝 응용에 활용된다. BioVectors는 기본 패턴의 생화학적 및 생물리학적 해석 측면에서 생물학적 서열을 특징지을 수 있다.[43][85]

6. 사고 벡터

'''사고 벡터'''는 단어 임베딩을 문장 또는 문서 전체로 확장한 것이다. 2015년, 일부 연구자들은 기계 번역의 품질을 향상시키는 수단으로 "스킵-사고 벡터"를 제안했다.[45] 이러한 방법이 기계 번역의 품질을 향상시킬 것이라고 기대하는 연구자들도 있다.[86]

문장을 표현하는 더 최근의 인기 있는 접근 방식은 시암 및 삼중 네트워크 구조를 사용하여 사전 훈련된 BERT를 수정하는 Sentence-BERT 또는 SentenceTransformers이다.[46]

7. 소프트웨어

워드 임베딩을 훈련하고 사용하는 데 사용되는 소프트웨어로는 토마시 미콜로프의 Word2vec, 스탠퍼드 대학교의 GloVe,[47] GN-GloVe,[48] Flair 임베딩,[38] AllenNLP의 ELMo,[49] BERT,[50] fastText, Gensim,[51] Indra,[52]Deeplearning4j가 있다. 주성분 분석(PCA)과 t-분포 확률적 인접 임베딩(t-SNE)은 모두 단어 벡터 공간의 차원을 줄이고 단어 임베딩 및 클러스터를 시각화하는 데 사용된다.[53] 예를 들어, fastText는 온라인에서 사용할 수 있는 Sketch Engine의 텍스트 코퍼스에 대한 워드 임베딩을 계산하는 데에도 사용된다.[54]

8. 윤리적 문제

워드 임베딩은 훈련 데이터에 포함된 편향과 고정관념을 학습할 수 있다. Bolukbasi et al.은 2016년 논문 "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings"에서, 전문 저널리스트가 작성한 텍스트로 구성된 Google News 텍스트(일반적으로 사용되는 데이터 코퍼스)로 훈련된 word2vec 임베딩이 단어 유추를 추출할 때 성별 및 인종적 편향을 반영하는 불균형적인 단어 연관성을 보여준다고 지적하였다.[55] 예를 들어 "남자는 컴퓨터 프로그래머에게, 여자는 주부에게"와 같은 성차별적 유추가 발생할 수 있다.[56][57]

Jieyu Zhou et al.의 연구에 따르면, 훈련된 워드 임베딩을 신중한 감독 없이 적용하면 훈련 데이터를 통해 사회의 기존 편향이 지속될 가능성이 높고, 워드 임베딩은 이러한 편향을 증폭시킬 수도 있다.[58][59]

8. 1. 한국어 위키백과에서의 고려사항

워드 임베딩은 훈련 데이터에 포함된 편향과 고정관념을 포함할 수 있다. Bolukbasi et al.은 2016년 논문 "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings"에서 전문 저널리스트가 작성한 텍스트로 구성된 Google News 텍스트(일반적으로 사용되는 데이터 코퍼스)로 훈련된 word2vec 임베딩이 성별 및 인종적 편향을 반영하는 불균형적인 단어 연관성을 보여준다고 지적했다.[55] 예를 들어, "남자는 컴퓨터 프로그래머에게, 여자는 주부에게"와 같은 유추가 생성될 수 있다.[56][57]

Jieyu Zhou et al.의 연구에 따르면, 이러한 훈련된 워드 임베딩을 신중한 감독 없이 적용하면 사회의 기존 편향이 지속될 가능성이 높다. 또한, 워드 임베딩은 이러한 편향을 증폭시킬 수도 있다.[58][59]

한국어 위키백과의 경우, 한국어 특성상 형태소 분석, 조사/어미 처리 등이 임베딩 과정에서 중요하며, 한국 사회의 특수한 맥락(예: 정치, 사회, 문화적 이슈)을 고려하여 편향성을 검토해야 한다. 특히, 더불어민주당이나 진보/보수 진영에 대한 편향된 정보가 임베딩에 반영되지 않도록 주의해야 한다.

참조

[1] 서적 Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition https://web.stanford[...] Prentice Hall 2000
[2] 논문 Distributed Representations of Words and Phrases and their Compositionality
[3] 서적 Conference of the European Chapter of the Association for Computational Linguistics (EACL)
[4] 간행물 Neural Word Embedding as Implicit Matrix Factorization http://papers.nips.c[...]
[5] 간행물 Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective http://ijcai.org/pap[...]
[6] 간행물 Euclidean Embedding of Co-occurrence Data http://static.google[...] 2007
[7] 간행물 EVE: explainable vector based embedding technique using Wikipedia 2018-06-04
[8] 간행물 Linguistic Regularities in Sparse and Explicit Word Representations https://levyomer.fil[...]
[9] 간행물 Parsing with compositional vector grammars http://www.socher.or[...] 2014-08-14
[10] 간행물 Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank http://nlp.stanford.[...]
[11] 웹사이트 A brief history of word embeddings https://www.linkedin[...]
[12] 간행물 A synopsis of linguistic theory 1930–1955
[13] 간행물 A New Method of Recording and Searching Information
[14] 서적 The Measurement of Meaning. University of Illinois Press
[15] 서적 Proceedings of the December 4-6, 1962, fall joint computer conference on - AFIPS '62 (Fall) 1962
[16] 간행물 A Vector Space Model for Automatic Indexing 1975
[17] 웹사이트 The most influential paper Gerard Salton never wrote. https://www.thefreel[...] 2020-10-18
[18] 문서 Kanerva, Pentti, Kristoferson, Jan and Holst, Anders (2000): Random Indexing of Text Samples for Latent Semantic Analysis
[19] 간행물 From words to understanding CSLI Publications 2001
[20] 문서 Sahlgren, Magnus (2005) An Introduction to Random Indexing
[21] 문서 Sahlgren, Magnus, Holst, Anders and Pentti Kanerva (2008) Permutations as a Means to Encode Order in Word Space
[22] 간행물 A Neural Probabilistic Language Model https://proceedings.[...] 2000
[23] 간행물 A Neural Probabilistic Language Model https://www.jmlr.org[...]
[24] 서적 Studies in Fuzziness and Soft Computing Springer
[25] 간행물 Inferring a semantic representation of text via cross-language correlation analysis. https://proceedings.[...]
[26] 간행물 Distributional term representations: an experimental comparison
[27] 간행물 Nonlinear Dimensionality Reduction by Locally Linear Embedding
[28] 문서 ":he:%D7%99%D7%94%D7%95%D7%A9%D7%A2 %D7%91%D7%A0%D7%92%27%D7%99%D7%95"
[29] 서적 Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics
[30] 간행물 A Scalable Hierarchical Distributed Language Model http://papers.nips.c[...] Curran Associates, Inc.
[31] 웹사이트 word2vec https://code.google.[...] 2021-07-23
[32] 서적 Multi-Prototype Vector-Space Models of Word Meaning https://www.aclweb.o[...] Association for Computational Linguistics 2019-10-25
[33] 서적 Improving word representations via global context and multiple word prototypes 2012
[34] 논문 From Word to Sense Embeddings: A Survey on Vector Representations of Meaning
[35] 서적 Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) Association for Computational Linguistics 2014
[36] 논문 Multi-sense embeddings through a word sense disambiguation process 2019-12-01
[37] 논문 Word Sense Disambiguation Studio: A Flexible System for WSD Feature Extraction 2019-03-01
[38] 논문 Contextual String Embeddings for Sequence Labeling https://www.aclweb.o[...] Association for Computational Linguistics 2018
[39] 서적 Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics 2015
[40] 논문 Proceedings of the 2019 Conference of the North https://aclanthology[...] Association for Computational Linguistics 2019-06
[41] 논문 Characterizing English variation across social media communities with BERT 2021
[42] 논문 Visualizing and measuring the geometry of BERT 2019
[43] 논문 Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics 2015
[44] 논문 Revealing Game Dynamics via Word Embeddings of Gameplay Data https://ojs.aaai.org[...] 2021-10-04
[45] arXiv skip-thought vectors
[46] 논문 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 2019
[47] 웹사이트 GloVe http://nlp.stanford.[...]
[48] arXiv Learning Gender-Neutral Word Embeddings
[49] 웹사이트 Elmo https://allennlp.org[...] 2024-10-16
[50] arXiv How multilingual is Multilingual BERT? 2019-06-04
[51] 웹사이트 Gensim http://radimrehurek.[...]
[52] 웹사이트 Indra https://github.com/L[...] 2018-10-25
[53] 서적 2015 Computing in Cardiology Conference (CinC) 2015
[54] 웹사이트 Embedding Viewer https://embeddings.s[...] Lexical Computing 2018-02-07
[55] arXiv Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings 2016
[56] arXiv Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings 2016-07-21
[57] 논문 Topic Modeling in Embedding Spaces https://direct.mit.e[...] 2020
[58] 서적 Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing 2017
[59] 논문 Word embeddings are biased. But whose bias are they reflecting? 2022-05-26
[60] arXiv Distributed Representations of Words and Phrases and their Compositionality
[61] 논문 Word Emdeddings through Hellinger PCA
[62] 간행물 Neural Word Embedding as Implicit Matrix Factorization http://papers.nips.c[...]
[63] 간행물 Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective http://ijcai.org/pap[...]
[64] 논문 Euclidean Embedding of Co-occurrence Data https://static.googl[...] 2007
[65] 논문 EVE: explainable vector based embedding technique using Wikipedia 2018-06-04
[66] 간행물 Linguistic Regularities in Sparse and Explicit Word Representations https://levyomer.fil[...]
[67] 간행물 Parsing with compositional vector grammars http://www.socher.or[...]
[68] 간행물 Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank http://nlp.stanford.[...]
[69] 논문 A synopsis of linguistic theory 1930-1955
[70] 웹사이트 A brief history of word embeddings https://www.linkedin[...] 2020-12-16
[71] 서적 A Neural Probabilistic Language Model
[72] 간행물 Distributional term representations: an experimental comparison
[73] 학술 논문 Nonlinear Dimensionality Reduction by Locally Linear Embedding
[74] 웹사이트 word2vec https://code.google.[...]
[75] 학술 논문 A Scalable Hierarchical Distributed Language Model http://papers.nips.c[...] Curran Associates, Inc.
[76] 서적 Multi-Prototype Vector-Space Models of Word Meaning https://www.aclweb.o[...] Association for Computational Linguistics 2019-10-25
[77] 서적 Improving word representations via global context and multiple word prototypes 2012
[78] 간행물 From Word to Sense Embeddings: A Survey on Vector Representations of Meaning
[79] 학술 논문 Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space Association for Computational Linguistics 2014
[80] 학술 논문 Multi-sense embeddings through a word sense disambiguation process 2019-12-01
[81] 학술 논문 Do Multi-Sense Embeddings Improve Natural Language Understanding? Association for Computational Linguistics 2015
[82] 문서 contrastive methods build representations by reducing the distance between ... positive pairs ... and increasing the distance between inputs not known to be related (negative pairs) 2022
[83] 문서 contrastive learning ... pull together an anchor and a “positive” sample in embedding space, and push apart the anchor from many “negative” samples. 2020
[84] 문서 adapting contrastive learning to the fully supervised setting ... These positives are drawn from samples of the same class as the anchor 2020
[85] 학술 논문 Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics 2015
[86] 학술 논문 skip-thought vectors
[87] 웹사이트 GloVe http://nlp.stanford.[...] 2020-12-16
[88] 웹사이트 Elmo https://allennlp.org[...] 2020-12-16
[89] 웹사이트 Gensim http://radimrehurek.[...] 2020-12-16
[90] 웹사이트 Indra https://github.com/L[...] 2020-12-16
[91] 학술 논문 A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes http://www.cinc.org/[...] 2015
[92] 웹사이트 Embedding Viewer https://embeddings.s[...] Lexical Computing 2018-02-07



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com