언어 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

언어 모델은 단어 시퀀스에 확률을 할당하여 언어의 구조를 모델링하는 기술이다. n-gram, 최대 엔트로피 모델, 신경망 기반 모델, 트랜스포머 모델, 대규모 언어 모델(LLM) 등 다양한 종류가 있으며, 자연어 처리, 기계 번역, 음성 인식, 정보 검색, 챗봇 등 다양한 분야에 활용된다. 특히 한국어 언어 모델은 언어적 특성과 데이터 부족 문제로 인해 특수한 연구가 필요하다. 하지만, GPT와 같은 최신 언어 모델은 인지 모델로서의 타당성에 대한 논의가 필요하며, 윤리적인 문제와 기술적 한계점을 가지고 있다.

2. 역사

언어 모델은 주어진 단어열에 대해 확률을 부여하여, 어떤 단어열이 더 자연스러운지 판단하는 모델이다. 초기에는 음성 인식^[24]에서 낮은 확률의 무의미한 단어열을 예측에서 제외하는 데 사용되었으나, 현재는 기계 번역^[25], 자연어 생성, 품사 태깅, 구문 분석^[25], 광학 문자 인식, 필기 문자 인식^[26], 정보 검색^[28]^[29] 등 다양한 분야에서 활용되고 있다.

언어 모델은 길이 m개의 단어열이 주어졌을 때, 해당 단어열 전체에 대한 확률 $P(w_1,\ldots,w_m)$ 을 제공한다. 이 확률 분포는 하나 이상의 언어 텍스트 코퍼스를 사용하여 언어 모델을 훈련함으로써 얻어진다.

언어는 무한히 유효한 문장을 표현할 수 있기 때문에, 훈련 데이터에 없는 유효한 단어열에도 0이 아닌 확률을 부여해야 한다. 이를 위해 마르코프 가정, 순환 신경망, 트랜스포머 등 다양한 모델링 방법이 개발되었다.

정보 검색 분야에서는 Query likelihood model^영어에서 언어 모델이 사용된다. 각 문서에 대한 언어 모델 $M_d$ 에 대한 쿼리 $Q$ 의 확률 $P(Q\mid M_d)$ 에 기반하여 문서 순위를 매긴다. 이때, Unigram|유니그램^영어 언어 모델이 주로 사용된다.

2018년 이후, 대규모 언어 모델 (LLM)이 등장하여 큰 발전을 이루었다. LLM은 수십억 개의 학습 가능한 파라미터를 가진 딥 뉴럴 네트워크로 구성되며, 레이블이 없는 방대한 텍스트 데이터로 훈련된다. LLM은 다양한 자연어 처리 작업에서 뛰어난 성과를 보이며, 연구의 중심이 범용 LLM 사용으로 이동하고 있다.

2. 1. 초기 모델

초창기 언어 모델은 통계적 방법에 기반하여 개발되었다. 이 모델들은 단어의 출현 빈도와 같은 통계적 정보를 활용하여 다음에 나올 단어를 예측했다.

2. 1. 1. N-gram 모델

N-gram 모델은 마르코프 연쇄를 기반으로, 특정 단어 시퀀스 다음에 나올 단어의 확률을 예측한다. 한국어의 경우, 어순, 조사, 어미 등의 문법적 특징을 반영하여 N-gram 모델을 구축해야 한다.

2. 2. 통계 기반 모델

통계 기반 모델은 대량의 텍스트 데이터를 분석하여 단어의 출현 빈도와 패턴을 학습한다. 최대 엔트로피 모델, Skip-gram 모델 등이 이에 해당한다.

2. 2. 1. 최대 엔트로피 모델

최대 엔트로피 언어 모델은 특징 함수를 사용하여 단어와 ''n''-gram 이력 간의 관계를 인코딩한다. 이는 특정 단어와 문맥 간의 관계를 효과적으로 나타낼 수 있게 하여 언어 모델의 성능 향상에 기여했다. 관련 방정식은 다음과 같다.

:

P(w_m \mid w_1,\ldots,w_{m-1}) = \frac{1}{Z(w_1,\ldots,w_{m-1})} \exp (a^T f(w_1,\ldots,w_m))

여기서

Z(w_1,\ldots,w_{m-1})

는 분배 함수,

a

는 파라미터 벡터,

f(w_1,\ldots,w_m)

는 특징 함수이다. 가장 간단한 경우, 특징 함수는 특정 ''n''-gram의 존재 여부를 나타내는 지표이다.

a

에 대한 사전 정보 또는 어떤 형태의 정규화를 사용하는 것이 도움이 된다.

로그-쌍선형 모델은 지수 언어 모델의 또 다른 예이다.

2. 2. 2. Skip-gram 모델

Skip-gram은 중심 단어를 바탕으로 주변 단어를 예측하는 모델이다. 이 모델은 Word2vec과 같은 도구에서 활용되며, 단어 간의 의미 관계를 파악하는 데 중요한 역할을 한다.

2. 3. 신경망 기반 모델

딥러닝 기술의 발전과 함께 신경망 기반 언어 모델이 등장하여 성능이 크게 향상되었다.

2. 3. 1. 순환 신경망 (RNN) 모델

순환 신경망 기반 언어 모델에서는 연속 표현 또는 단어 임베딩이 생성된다.^[10] 이러한 연속 공간 임베딩은 어휘 크기가 커짐에 따라 가능한 단어 시퀀스의 수가 지수적 성장으로 증가하여 데이터 희소성 문제를 야기하는 차원의 저주를 완화하는 데 도움이 된다. 신경망은 단어를 신경망 내 가중치의 비선형 조합으로 표현하여 이 문제를 피한다.^[11]

2. 3. 2. 트랜스포머 모델

트랜스포머 모델은 어텐션 메커니즘을 도입하여 문장 내 단어 간의 관계를 효율적으로 파악한다. BERT, GPT 등 다양한 사전 학습 모델이 개발되어 자연어 처리 분야의 발전을 이끌고 있다. 하지만, 이러한 모델이 인간의 인지 모델을 제대로 반영하는지에 대해서는 불분명하다. 순환 신경망의 경우, 인간이 일반적으로 배우지 않는 패턴을 학습하거나, 인간이 일반적으로 학습하는 패턴을 학습하지 못하는 경우가 있다.^[12]

2. 3. 3. 대규모 언어 모델 (LLM)

대규모 언어 모델은 방대한 양의 데이터를 학습하여 높은 수준의 언어 이해 및 생성 능력을 보여준다. GPT-3, BERT, LaMDA 등은 다양한 자연어 처리 과제에서 뛰어난 성능을 보인다. 하지만 이것이 실제 인간의 인지 능력을 모방하는 것인지에 대해서는 불분명하다. 적어도 순환 신경망의 경우, 인간이 일반적으로 배우는 패턴을 학습하지 못하는 경우가 있는 반면, 인간이 하지 않는 패턴을 학습하는 경우가 있다는 것이 밝혀졌다.^[12]

3. 모델 종류

언어 모델은 주어진 단어열에 대해 확률을 부여하여, 특정 언어에서 해당 단어열이 얼마나 자연스러운지를 나타낸다. 이러한 확률 분포는 하나 이상의 언어로 된 텍스트 코퍼스를 통해 훈련하여 얻어진다. 그러나 언어는 무한히 많은 문장을 표현할 수 있으므로, 훈련 데이터에 없는 문장에 대해서도 적절한 확률을 부여하는 것이 중요하다. 이를 위해 마르코프 가정을 활용하거나, 순환 신경망 또는 트랜스포머와 같은 신경망 구조를 사용한다.

언어 모델은 초기에 음성 인식^[24]에서 무의미한 단어열을 제거하는 데 사용되었으나, 현재는 기계 번역^[25], 자연어 생성, 품사 태깅, 구문 분석^[25], 광학 문자 인식, 필기 문자 인식^[26], 정보 검색^[28]^[29] 등 다양한 분야에서 활용되고 있다.

정보 검색 분야에서는 쿼리 우도 모델(Query likelihood model)이라는 방식으로 언어 모델이 사용된다. 각 문서마다 언어 모델을 연관시키고, 특정 쿼리가 주어졌을 때 각 문서의 언어 모델에서 해당 쿼리가 나타날 확률을 계산하여 문서의 순위를 결정한다. 이 때는 주로 유니그램(unigram) 언어 모델이 사용된다.

2018년 이후, 대규모 언어 모델 (LLM)이 등장하여 큰 발전을 이루었다. LLM은 수십억 개의 파라미터를 가진 딥 뉴럴 네트워크로 구성되며, 레이블이 없는 방대한 텍스트 데이터로 훈련된다. LLM은 다양한 자연어 처리 작업에서 뛰어난 성능을 보여, 연구의 중심이 범용 LLM 활용으로 이동하고 있다.

언어 모델의 종류는 다음과 같다.

n-gram 모델: 마르코프 과정에 기반하여 단어의 출현 확률을 계산한다.
지수 함수 모델: 특징 함수를 사용하여 단어와 n-gram 이력 간의 관계를 나타낸다.
신경망 모델: 단어 임베딩을 활용하여 단어의 의미를 연속적인 공간에 표현하고, 이를 통해 확률을 계산한다.
기타 모델: 위치 기반 모델, 개념 기반 모델(bag-of-concepts), 수화 모델, 음성 입력 모델(GSLM) 등이 있다.

3. 1. N-gram 모델

n-gram 언어 모델은 마르코프 과정에 기반하여 단어 열을 모델링한다. 이 모델은 단어 열 내의 다음 단어의 확률이 선행하는 단어의 고정된 크기의 윈도우에만 의존한다고 가정하여 단순화한다. 예를 들어, bigram 모델은 선행하는 1개의 단어만 고려하고, trigram 모델은 선행하는 2개의 단어를 고려하며, n-gram 모델은 선행하는 n-1개의 단어를 문맥으로 고려한다.

예를 들어, bigram 언어 모델은 "I saw the red house (나는 빨간 집을 봤다)"라는 문장의 확률을 다음과 같이 모델링한다.

: ''P''(I, saw, the, red, house) ≈ ''P''(I|<s>) ''P''(saw|I) ''P''(the|saw) ''P''(red|the) ''P''(house|red) ''P''(</s>|house)

여기서 <s>와 </s>는 문장의 시작과 끝을 나타내는 특수 토큰이다.

이러한 조건부 확률은 텍스트 코퍼스의 일부 빈도수를 기반으로 추정할 수 있다. 예를 들어, ''P''(saw|I)는 코퍼스 내에서 단어 "I" 다음에 "saw"가 나타나는 비율로 간단하게 추정할 수 있다. 희소성 문제(예: 코퍼스 내에서 "red house"라는 bigram의 출현 횟수가 0인 경우)는 특히 큰 컨텍스트 윈도우를 사용할 때 Smoothing|평활화^영어 기법으로 기본적인 마르코프 모델을 수정해야 한다.

3. 2. 지수 함수 모델

최대 엔트로피 언어 모델은 특징 함수를 사용하여 단어와 ''n''-gram 이력 간의 관계를 인코딩한다. 관련 방정식은 다음과 같다.

:

P(w_m \mid w_1,\ldots,w_{m-1}) = \frac{1}{Z(w_1,\ldots,w_{m-1})} \exp (a^T f(w_1,\ldots,w_m))

여기서

Z(w_1,\ldots,w_{m-1})

는 분배 함수,

a

는 파라미터 벡터,

f(w_1,\ldots,w_m)

는 특징 함수이다. 가장 간단한 경우, 특징 함수는 특정 ''n''-gram의 존재 여부를 나타내는 지표이다.

a

에 대한 사전 정보 또는 어떤 형태의 정규화를 사용하는 것이 도움이 된다.

로그-쌍선형 모델은 지수 언어 모델의 또 다른 예이다.

3. 3. 신경망 모델

순환 신경망 기반 언어 모델에서는 연속 표현 또는 단어 임베딩이 생성된다.^[10] 이러한 연속 공간 임베딩은 어휘 크기가 커짐에 따라 가능한 단어 시퀀스의 수가 지수적 성장으로 증가하여 데이터 희소성 문제를 야기하는 차원의 저주를 완화하는 데 도움이 된다. 신경망은 단어를 신경망 내 가중치의 비선형 조합으로 표현하여 이 문제를 피한다.^[11]

신경 언어 모델은 연속 공간 언어 모델(''continuous space language models'')이라고도 하며, 단어의 연속적인 표현 또는 임베딩을 사용하여 예측을 수행한다.^[30] 이러한 모델에서는 신경망이 사용된다.

연속 공간 임베딩은 언어 모델링에서 "차원의 저주"를 완화하는 데 효과적인 방법이다. 훈련에 사용하는 텍스트의 크기에 따라 어휘에 포함된 고유한 단어 수도 증가한다. 이 때문에 단어열의 가능한 조합 수가 지수적으로 증가하여 데이터 희소성 문제가 발생한다. 따라서 확률을 적절하게 추정하려면 통계가 필요하다. 이 문제를 해결하기 위해 신경망은 단어의 표현을 분산시키는 기법을 사용하며, 네트워크 내 가중치의 비선형적 조합으로 표현한다.^[31] 또한, 신경망은 언어 함수를 근사한다고 볼 수도 있다. 이 목적에 사용할 수 있는 신경망 아키텍처에는 순방향 신경망과 순환 신경망의 두 가지가 있다.

신경망 언어 모델은 일반적으로 어휘

V

의 모든 단어

t

에 대해 확률 분포

P(w_t \mid \mathrm{context}) \, \forall t \in V

를 예측하는 것을 목표로 하는 확률적 분류기로 구축 및 훈련된다. 즉, 네트워크는 주어진 언어적 컨텍스트를 기반으로 어휘의 확률 분포를 예측하도록 훈련된다. 이는 역전파를 사용한 확률적 경사 하강법과 같은 표준 신경망 학습 알고리즘에 의해 수행된다. 컨텍스트는 선행 단어의 고정 크기 윈도우가 될 수 있으며, 네트워크는 선행 k개의 단어를 나타내는 특징 벡터에서

P(w_t \mid w_{t-k}, \dots, w_{t-1})

을 예측한다. 또 다른 옵션으로, "과거"와 "미래" 단어를 특징으로 사용하고,^[44] 추정 확률을

P(w_t \mid w_{t-k}, \dots, w_{t-1}, w_{t+1}, \dots, w_{t+k}).

로 하는, Bag-of-words 모델도 있다. 컨텍스트 내 단어의 특징 벡터를 연속 연산으로 연결하면, 이 모델은 연속 Bag-of-words(Continuous bag-of-words, CBOW) 아키텍처라고 한다.^[32]

세 번째 옵션은 skip-gram이라고 하는 언어 모델이다.^[33] 이는 앞의 문제를 반대로 하여, 주어진 단어로부터 컨텍스트를 출력하도록 신경망을 훈련시키는 것으로, CBOW보다 훈련에 시간이 걸리지만, 약간 더 나은 성능을 얻을 수 있다. 그 목표는, 훈련용 단어열

w_1, w_2, w_3, \dots, w_T

가 주어졌을 때, 평균 대수 확률

\frac{1}{T}\sum_{t=1}^T \sum_{-k \leq j \leq k, j \neq 0} \log P(w_{t+j} \mid w_t)

을 최대화하는 것이다. 여기서 훈련 컨텍스트의 크기 k는 중앙 단어

w_t

의 함수로 할 수 있다. skip-gram 모델과 bag-of-words 모델은 word2vec 프로그램의 기초를 이루고 있다.^[34]

신경망 언어 모델을 사용할 때 자주 사용되는 것은, 실제 확률을 계산하는 대신, 네트워크의 "은닉층"에 부호화된 분산 표현을 단어의 표현으로 활용하는 것이다. 각 단어는 n차원의 실수 벡터인 "단어 임베딩"이 할당된다. 여기서 n은 출력층 이전의 층의 크기이다. 특징적인 것은, skip-gram 모델의 표현이 단어 간의 의미적 관계를 선형 결합으로 모델링하고, 그로 인해 구성성 형식을 포착하는 것이다. 예를 들어, 이러한 모델에서는 단어 w를 그 n차원 벡터 표현에 대응시키는 함수 v가 있을 때,

v(\mathrm{king}) - v(\mathrm{male}) + v(\mathrm{female}) \approx v(\mathrm{queen})

이라는 식이 성립하며, 여기서 ≈는 정확하게 우변이 좌변 값의 최근접으로 정의된다.

3. 4. 기타 모델

위치 언어 모델은 텍스트 내에서 특정 단어가 바로 인접하지 않더라도 근처에 나타날 확률을 평가한다.^[35] 이와 유사하게, bag-of-concepts 모델은 "오늘, 나는 매우 멋진 크리스마스 선물을 많이 샀다"와 같이 정보량이 많은 문장에서도 ''buy_christmas_present''와 같은 여러 단어 표현과 관련하여 그 의미를 활용한다.^[36]

수화 모델링에서는 신경망이 어느 정도 성공을 거두고 있지만,^[37] 연구자들은 다른 기술이 필요하다는 것을 인식하고 있다.

GSLM (Generative Spoken Language Model)은 음성을 입력으로 하는 언어 모델이다.^[38]^[39]^[40]^[41] 문자를 입력으로 전혀 사용하지 않는다. 음성은 언어 정보 외에 준언어 정보, 비언어 정보를 포함하고 있기 때문에, 음성을 입력으로 하는 GSLM이 획득하는 표현에는 이러한 정보도 코딩되어 있을 것으로 기대된다.^[42]

4. 평가 및 벤치마크

언어 모델의 품질 평가는 일반적으로 사람이 만든 표본 벤치마크와 비교하여 이루어진다. 이외에도 언어 모델의 내재적 특성을 검사하거나 두 모델을 비교하는 방법, 학습 곡선 검토를 통해 학습 속도를 조사하는 방법 등이 있다.^[13]

언어 처리 시스템 평가를 위해 다양한 데이터 세트가 개발되었다.^[14] 주요 벤치마크 데이터셋은 다음과 같다.

데이터셋	설명
언어적 수용성 코퍼스(CoLA)^[15]^[45]	문법적으로 올바른 문장인지 판단하는 데 사용된다.
GLUE 벤치마크^[16]^[46]	다양한 자연어 이해 과제를 포함하는 벤치마크이다.
마이크로소프트 연구 어구 재작성 코퍼스(MRPC)^[17]^[47]	두 문장이 의미적으로 같은지 판단하는 데 사용된다.
다중 장르 자연어 추론(MultiNLI)	두 문장 사이의 관계(함의, 중립, 모순)를 추론하는 데 사용된다.
질문 자연어 추론(QNLI)	질문과 답변 쌍이 주어졌을 때, 답변이 질문에 대한 정답인지 판단하는 데 사용된다.
Quora 질문 쌍(QQP)^[18]^[48]	두 질문이 의미적으로 같은지 판단하는 데 사용된다.
텍스트 함의 인식(RTE)^[19]^[49]	두 문장 사이의 함의 관계를 추론하는 데 사용된다.
의미적 텍스트 유사성 벤치마크(STS)	두 문장의 의미적 유사성을 평가하는 데 사용된다.
SQuAD 질문 응답 테스트(SQuAD)^[20]^[50]	질문과 지문이 주어졌을 때, 질문에 대한 정답을 지문에서 찾는 데 사용된다.
스탠포드 감성 트리뱅크(SST)^[21]^[51]	문장의 감성(긍정, 부정)을 판단하는 데 사용된다.
Winograd NLI (WNLI)	대명사가 가리키는 대상을 찾는 데 사용된다.
기타	BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (대규모 멀티태스크 언어 이해), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs^[22]^[52]

5. 활용 분야

언어 모델은 계산 언어학의 다양한 문제에 도움이 된다. 처음에는 낮은 확률로 무의미한 단어열을 예측하는 것을 방지하기 위해 음성 인식에 사용되었다.^[24] 현재는 기계 번역(번역 후보 순위 매기기)^[25], 더 인간에 가까운 텍스트를 생성하는 자연어 생성, 품사 태깅, 구문 분석^[25], 광학 문자 인식, 필기 문자 인식^[26], 문법 유도^[27], 정보 검색^[28]^[29] 등 광범위한 용도로 활용되고 있다.

정보 검색에서는 Query likelihood model|쿼리 우도 모델^영어에서 언어 모델이 사용된다. 이 방법에서는 컬렉션 내의 모든 문서에 개별 언어 모델이 연관되어 있다. 그리고 각 문서는 해당 문서의 언어 모델 $M_d$ 에 대한 쿼리 $Q$ 의 확률 $P(Q\mid M_d)$ 에 기반하여 순위가 매겨진다. 이 목적을 위해 일반적으로 Unigram|유니그램^영어 언어 모델이 이용된다.

2018년 이후, 대규모 언어 모델(LLM)이 등장하여 큰 발전을 보였다. 이러한 모델은 수십억 개의 학습 가능한 파라미터를 가진 딥 뉴럴 네트워크로 구성되며, 레이블이 없는 텍스트의 방대한 데이터 세트로 훈련된다. LLM은 다양한 자연어 처리 작업에서 현저한 성과를 보였고, 연구의 초점이 범용 LLM의 사용으로 옮겨가고 있다.

6. 한국어 언어 모델의 특수성

(내용 없음)

7. 윤리적 문제

GPT와 같은 현대 언어 모델은 특정 과제에서 인간에 필적하는 능력을 발휘하지만, 인지 모델로서의 타당성은 불확실해지고 있다. 예를 들어, 순환 신경망의 경우 인간이 학습하지 않는 패턴을 학습하거나, 인간이 학습하는 패턴을 학습하지 못하고 실패하는 것으로 알려져 있다.^[53]

8. 한계점 및 향후 발전 방향

언어 모델은 많은 발전을 이루었지만, 몇 가지 한계점도 가지고 있다. 이러한 한계점을 극복하고 언어 모델의 성능을 더욱 향상시키기 위한 연구가 활발히 진행되고 있다.

8. 1. 현재 기술의 한계점

때때로 인간의 성능과 일치하지만, 이것이 그럴듯한 인지 모델인지 여부는 불분명하다. 적어도 순환 신경망의 경우, 때때로 인간이 하지 않는 패턴을 배우지만, 인간이 일반적으로 배우는 패턴을 배우지 못한다는 것이 밝혀졌다.^[12]

참조

_[1] 서적 Speech and Language Processing https://web.stanford[...] 2022-05-24
_[2] 간행물 Two decades of statistical language modeling: Where do we go from here? https://figshare.com[...]
_[3] 문서 A cache-based natural language model for speech recognition https://www.research[...] 1990
_[4] 문서 Semantic parsing as machine translation https://www.aclweb.o[...] 2013
_[5] 간행물 Can language models be used for real-world urban-delivery route optimization? 2023
_[6] 문서 Dropout improves recurrent neural networks for handwriting recognition https://arxiv.org/ab[...] IEEE 2014
_[7] 문서 Grammar induction with neural language models: An unusual replication https://arxiv.org/pd[...] 2018
_[8] 학회자료 A language modeling approach to information retrieval ACM
_[9] 학회자료 A linguistically motivated probabilistically model of information retrieval LNCS, Springer
_[10] 웹사이트 The Unreasonable Effectiveness of Recurrent Neural Networks https://karpathy.git[...] 2019-01-27
_[11] 백과사전 Neural net language models http://www.scholarpe[...] 2015-08-28
_[12] 서적 Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics https://books.google[...] Walter de Gruyter GmbH & Co KG 2021-12-11
_[13] 기타 International Conference of the Cross-Language Evaluation Forum Springer International Publishing 2015
_[14] 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018-10-10
_[15] 웹사이트 The Corpus of Linguistic Acceptability (CoLA) https://nyu-mll.gith[...] 2019-02-25
_[16] 웹사이트 GLUE Benchmark https://gluebenchmar[...] 2019-02-25
_[17] 웹사이트 Microsoft Research Paraphrase Corpus https://www.microsof[...] 2019-02-25
_[18] 기타 Text, Speech, and Dialogue Springer International Publishing 2017
_[19] 웹사이트 Recognizing Textual Entailment http://l2r.cs.uiuc.e[...] 2019-02-24
_[20] 웹사이트 The Stanford Question Answering Dataset https://rajpurkar.gi[...] 2019-02-25
_[21] 웹사이트 Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank https://nlp.stanford[...] 2019-02-25
_[22] 기타 Measuring Massive Multitask Language Understanding https://github.com/h[...] 2023-03-14
_[23] 서적 Speech and Language Processing https://web.stanford[...] 2022-05-24
_[24] 문서 A cache-based natural language model for speech recognition https://www.research[...] 1990
_[25] 문서 Semantic parsing as machine translation https://www.aclweb.o[...] 2013
_[26] 문서 Dropout improves recurrent neural networks for handwriting recognition https://arxiv.org/ab[...] IEEE 2014
_[27] 문서 Grammar induction with neural language models: An unusual replication https://arxiv.org/pd[...] 2018
_[28] 학회자료 A language modeling approach to information retrieval ACM
_[29] 학회자료 A linguistically motivated probabilistically model of information retrieval LNCS, Springer
_[30] 웹사이트 The Unreasonable Effectiveness of Recurrent Neural Networks https://karpathy.git[...] 2018-09-01
_[31] 백과사전 Neural net language models http://www.scholarpe[...]
_[32] 논문 Efficient estimation of word representations in vector space
_[33] 학회자료 Distributed Representations of Words and Phrases and their Compositionality http://papers.nips.c[...]
_[34] 웹사이트 We're on the cusp of deep learning for the masses. You can thank Google later https://gigaom.com/2[...] 2015-06-22
_[35] 학회자료 Positional Language Models for Information Retrieval in http://times.cs.uiuc[...]
_[36] 서적 Sentic Computing: Techniques, Tools, and Applications https://books.google[...] Springer Netherlands 2012-07-28
_[37] 간행물 Transfer Learning for British Sign Language Modelling https://www.aclweb.o[...] 2020-03-14
_[38] 뉴스 Textless NLP: Generating expressive speech from raw audio https://ai.facebook.[...] Facebook AI 2021
_[39] 논문 Generative Spoken Language Modeling from Raw Audio 2021
_[40] 논문 Speech Resynthesis from Discrete Disentangled Self-Supervised Representations 2021
_[41] 논문 Text-Free Prosody-Aware Generative Spoken Language Modeling 2021
_[42] 뉴스 Textless NLP: Generating expressive speech from raw audio https://ai.facebook.[...] Facebook AI 2021
_[43] 간행물 International Conference of the Cross-Language Evaluation Forum Springer International Publishing 2015
_[44] 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018-10-10
_[45] 웹사이트 The Corpus of Linguistic Acceptability (CoLA) https://nyu-mll.gith[...] 2019-02-25
_[46] 웹사이트 GLUE Benchmark https://gluebenchmar[...] 2019-02-25
_[47] 웹사이트 Microsoft Research Paraphrase Corpus https://www.microsof[...] 2019-02-25
_[48] 간행물 Text, Speech, and Dialogue Springer International Publishing 2017
_[49] 웹사이트 Recognizing Textual Entailment http://l2r.cs.uiuc.e[...] 2019-02-24
_[50] 웹사이트 The Stanford Question Answering Dataset https://rajpurkar.gi[...] 2019-02-25
_[51] 웹사이트 Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank https://nlp.stanford[...] 2019-02-25
_[52] Citation Measuring Massive Multitask Language Understanding https://github.com/h[...] 2023-03-15
_[53] 서적 Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics https://books.google[...] Walter de Gruyter GmbH & Co KG 2018-01-09
_[54] 서적 Speech and Language Processing https://web.stanford[...] 2022-05-24

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com