토픽 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
- 2.1. 초기 모델 (1990년대 후반)
- 2.2. 잠재 디리클레 할당(LDA)과 발전 (2000년대 초반 ~ 현재)
3. 알고리즘
4. 응용 분야
- 4.1. 사회 과학 및 인문학 연구
- 4.2. 기타 분야
5. 소프트웨어/라이브러리
참조

1. 개요

토픽 모델은 문서 집합에서 주제를 발견하기 위한 통계적 모델이다. 1990년대 후반 잠재 의미 분석(LSI)과 확률적 잠재 의미 분석(PLSI) 모델을 시작으로, 2002년 데이비드 블라이, 앤드류 응, 마이클 어윈 조던에 의해 개발된 잠재 디리클레 할당(LDA)이 널리 사용되고 있다. LDA는 여러 주제가 혼합된 문서를 처리할 수 있으며, sLDA, HDP 토픽 모델, hLDA, PAM, 파칭코 할당 등 다양한 변형 모델로 발전했다. 토픽 모델은 최대 우도 적합과 같은 알고리즘을 통해 모델 인자를 찾으며, 정보 검색, 텍스트 마이닝, 사회 과학, 인문학 연구 등 다양한 분야에서 활용된다.

더 읽어볼만한 페이지

잠재 변수 모형 - 잠재 의미 분석
잠재 의미 분석은 텍스트 데이터의 의미 구조를 파악하기 위해 문서-단어 행렬에 특이값 분해를 적용하여 차원을 축소하고 잠재된 의미를 추출하는 정보 검색 기술이다.
잠재 변수 모형 - 레이몬드 카텔
레이몬드 카텔은 심리학, 특히 성격, 능력, 동기 연구에 큰 영향을 미친 영국의 심리학자로, 다변량 연구 방법론을 개척하고 지능 구조를 밝히며 16가지 성격 요인 모델을 제시했지만, 말년에 인종과 우생학에 대한 관점으로 논란이 되었다.
말뭉치언어학 - N-그램
N-그램은 텍스트나 음성 데이터에서 나타나는 n개의 항목 시퀀스로, 언어 모델링, 텍스트 분석, DNA 서열 분석 등에서 데이터의 특성을 파악하고 예측하는 데 활용된다.
말뭉치언어학 - 지프의 법칙
지프의 법칙은 데이터의 순위와 빈도 사이의 관계를 나타내는 경험적 법칙으로, 요소의 빈도가 순위에 반비례하며 다양한 분야에서 관찰된다.
통계적 자연어 처리 - 확률적 앵무새
확률적 앵무새는 거대 언어 모델이 의미를 이해하지 못하고 확률적으로 단어를 연결하여 텍스트를 생성하는 것을 앵무새에 비유한 용어로, 환경적 비용, 편향성, 허위 정보 생성 가능성 등의 위험성을 경고하며 LLM의 이해 능력에 대한 논쟁을 불러일으킨다.
통계적 자연어 처리 - 언어 모델
언어 모델은 단어 시퀀스에 확률을 할당하는 통계적 모델로서 자연어 처리 분야에서 중요한 역할을 하며, 초기 마르코프 과정 기반 모델에서 지수 함수 모델, 신경망 모델을 거쳐 음성 입력 모델 등 다양한 형태로 연구되고, 벤치마크 데이터 세트를 통해 성능이 평가된다.

2. 역사

1990년대 후반, 잠재 의미 분석(LSI), 확률적 잠재 의미 분석(PLSI) 등 초기 토픽 모델이 연구되었다.^[28]^[29] 2000년대 초반에는 잠재 디리클레 할당(LDA)이 개발되어 널리 사용되었고, 이후 LDA를 개선하고 확장하는 다양한 변형 모델들이 등장했다.^[30]^[5]

이중 군집화를 통한 문서-단어 행렬에서의 토픽 감지 과정. 각 열은 문서, 각 행은 단어를 나타내며, 어두운 셀은 높은 단어 빈도를 나타낸다. LDA와 같은 토픽 모델은 확률적 메커니즘을 기반으로 문서를 그룹화한다.

2. 1. 초기 모델 (1990년대 후반)

1998년 파파디미트리우(Papadimitriou), 라가반(Raghavan), 타마키(Tamaki), 쳄팔라(Vempala)는 잠재 의미 분석(LSI)이라 불리는 모형을 제시하였다.^[28] 이 모형은 최초의 토픽 모델로 여겨지는데, 문헌-용어 행렬을 분해하여 잠재 변수인 의미를 발견하고자 했다. 이후 1999년에 토마스 호프만은 용어의 출현 빈도를 출현 확률로 대체하는 확률적 잠재 의미 분석(PLSI) 모형을 제시하였다.^[29]

2. 2. 잠재 디리클레 할당(LDA)과 발전 (2000년대 초반 ~ 현재)

데이비드 블라이(David Blei), 앤드류 응(Andrew Ng), 마이클 어윈 조던(Michael I. Jordan)은 2002년에 잠재 디리클레 할당(LDA) 모델을 개발했다.^[30] LDA는 확률적 잠재 의미 분석(PLSA)의 일반화된 형태로, 여러 주제가 혼합된 문서를 다룰 수 있게 하여 현재 가장 널리 사용되는 토픽 모델링 기법이 되었다.^[5]

LDA 모델이 제안된 이후, 이 모델을 개선하고 확장하는 다양한 변형 모델들이 등장했다. 예를 들어 지도학습을 수행할 수 있도록 확장한 sLDA, 계층적 디리클레 프로세스를 통해 적절한 모수 K값을 찾아가도록 개량한 HDP 토픽 모델, 주제 구조가 여러 층이 될 수 있도록 확장한 hLDA, 주제 간의 포함 관계를 비순환 방향 그래프로 나타낼 수 있도록 확장한 PAM 등이 있다.

3. 알고리즘

실제 연구자들은 최대 우도 적합과 같은 여러 휴리스틱을 활용해 데이터 코퍼스(말뭉치)에 적합한 모델 인자를 찾고자 한다. 데이비드 블라이의 최근 연구에서는 이 종류의 알고리즘에 대해 서술하고 있다.^[31] Papadimitriou 외 여러 명의 구성원으로 시작된 연구자들 그룹은 가능성이 보장된 알고리즘을 설계하고자 했다. 문제의 모델에 의해 자료가 실제 생성되었다고 가정하고, 그들은 자료를 생성하는데 쓰일 수 있는 모델을 찾을 수 있는 알고리즘을 고안하고자 시도했다. 여기에 쓰인 기술에는 특잇값 분해(SVD)과 모멘트 방법이 있다. 2012년에는 음수 미포함 행렬 분해(NMF)에 기반한 주제 간의 상관관계를 가지고 주제 모델을 일반화하는 알고리즘이 소개되었다.^[33]

2017년에는 추론을 더 빠르게 하기 위해 토픽 모델링에서 신경망이 활용되었으며,^[19] 이는 약하게 지도되는 버전으로 확장되었다.^[20]

2018년에는 확률적 블록 모델을 기반으로 하는 토픽 모델에 대한 새로운 접근 방식이 제안되었다.^[21]

대규모 언어 모델(LLM)의 최근 개발로 인해, 토픽 모델링은 컨텍스트 임베딩^[22] 및 미세 조정^[23]을 통해 LLM을 활용해 왔다.

4. 응용 분야

토픽 모델은 다양한 분야에서 활용되고 있다.

Yin 외^[11]는 지리적으로 분산된 문서에 대한 토픽 모델을 도입하여 문서 위치를 잠재적 영역으로 설명했다. Chang과 Blei^[12]는 관계형 토픽 모델을 사용하여 웹사이트 간의 링크를 모델링했다. Rosen-Zvi 외^[13]의 저자-토픽 모델은 저작 정보가 있는 문서에서 저자와 관련된 토픽을 모델링하여 토픽 감지 성능을 개선했다.

HLTA는 주요 AI 및 기계 학습 분야의 최신 연구 논문 모음에 적용되었다. 그 결과 모델은 [http://home.cse.ust.hk/~lzhang/topic/ai-tree.pdf AI 트리]라고 불린다. 생성된 토픽은 연구자들이 [http://aipano.cse.ust.hk aipano.cse.ust.hk]에서 논문을 검색하고, [http://home.cse.ust.hk/~lzhang/topic/aipanoIntro.pdf 연구 동향을 추적하며 읽을 논문을 식별]하는 데 사용된다. 또한 컨퍼런스 주최자와 저널 편집자가 [https://slidetalk.net/Home/Viewer?Video=2626079 제출물을 검토할 검토자를 식별]하는 데도 도움을 준다.

생성된 토픽의 질적 측면과 일관성을 개선하기 위해, 일부 연구자들은 "일관성 점수"의 효능, 즉 컴퓨터에서 추출한 토픽이 인간의 벤치마크와 얼마나 잘 일치하는지를 연구했다.^[14]^[15] 일관성 점수는 문서 코퍼스에서 추출할 토픽 수를 최적화하는 지표이다.^[16]

4. 1. 사회 과학 및 인문학 연구

Block과 Newman은 1728년부터 1800년까지 ''펜실베이니아 가제트''를 분석하여 주제의 시간적 변화를 연구했다. 그리피스와 Steyvers는 ''PNAS'' 저널 초록에 토픽 모델링을 적용하여 1991년부터 2001년까지 인기가 변동한 주제를 찾아냈다.^[6] Lamba & Madhusushan은 1981년부터 2018년까지 DJLIT 저널의 연구 논문에 토픽 모델링을 적용했고,^[6] 도서관 및 정보 과학 분야에서 저널 논문, 전자 학위 논문 및 자료(ETD) 등 다양한 인도 자료에도 토픽 모델링을 적용했다.^[7]^[8]^[9] Nelson은 미국 남북 전쟁 동안 ''리치몬드 타임스 디스패치''를 분석하여 리치몬드의 사회적, 정치적 변화와 연속성을 파악했다.^[10] Yang, Torget 및 Mihalcea는 1829년부터 2008년까지의 신문에 토픽 모델링 방법을 적용했다. Mimno는 150년에 걸쳐 고전 고고학 및 고고학에 관한 24개 저널을 분석하여 주제 변화와 저널 간 유사성 변화를 연구했다.

4. 2. 기타 분야

토픽 모델은 다른 분야에서도 활용되고 있다. 예를 들어 생물학 및 생물정보학 연구에서 토픽 모델이 사용되었다.^[24] 최근에는 암 유전체 샘플 데이터 세트에서 정보를 추출하는 데 토픽 모델이 사용되기도 하였다.^[25] 이 경우 토픽은 추론되어야 할 생물학적 잠재 변수이다.

토픽 모델은 음악과 같은 연속적인 신호 분석에도 사용될 수 있다. 예를 들어, 음악 스타일이 시간에 따라 어떻게 변화하는지 정량화하고, 특정 예술가가 후기 음악 창작에 미치는 영향을 식별하는 데 활용되었다.^[26]

5. 소프트웨어/라이브러리

http://mallet.cs.umass.edu/ Mallet
http://nlp.stanford.edu/software/tmt/tmt-0.4/ 스탠포드 토픽 모델링 툴킷
http://radimrehurek.com/gensim/ Gensim – 사람을 위한 토픽 모델링
https://cran.r-project.org/package=topicmodels topicmodels R 패키지

참조

_[1] 논문 Probabilistic Topic Models 2012-04
_[2] 간행물 Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes http://www.ifp.illin[...] IEEE
_[3] 서적 Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems - PODS '98 2012-04-17
_[4] 논문 Probabilistic Latent Semantic Indexing http://www.cs.brown.[...]
_[5] 논문 Latent Dirichlet allocation http://jmlr.csail.mi[...] 2003-01
_[6] 논문 Mapping of topics in DESIDOC Journal of Library and Information Technology, India: a study
_[7] 논문 Metadata Tagging and Prediction Modeling: Case Study of DESIDOC Journal of Library and Information Technology (2008-2017) https://content.iosp[...]
_[8] 논문 Author-Topic Modeling of DESIDOC Journal of Library and Information Technology (2008-2017), India https://www.proquest[...]
_[9] conference Metadata Tagging of Library and Information Science Theses: Shodhganga (2013-2017) https://etd2018.ncl.[...]
_[10] 웹사이트 Mining the Dispatch https://dsl.richmond[...] Digital Scholarship Lab, University of Richmond 2021-03-26
_[11] 서적 Proceedings of the 20th international conference on World wide web
_[12] 논문 Relational Topic Models for Document Networks http://www.jmlr.org/[...]
_[13] 논문 The author-topic model for authors and documents
_[14] 논문 Topic modelling for qualitative studies
_[15] thesis Topic Modelling in Spontaneous Speech Data Australian National University 2022
_[16] 논문 Automatic evaluation of topic coherence
_[17] 논문 Introduction to Probabilistic Topic Models https://cacm.acm.org[...] 2012-04
_[18] ArXiv Learning Topic Models—Going beyond SVD 2012-04
_[19] 논문 Discovering Discrete Latent Topics with Neural Variational Inference https://proceedings.[...] PMLR 2017
_[20] 논문 vONTSS: vMF based semi-supervised neural topic modeling with optimal transport http://dx.doi.org/10[...] Association for Computational Linguistics 2023
_[21] 논문 A network approach to topic models 2018
_[22] 서적 Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers) Association for Computational Linguistics 2021
_[23] 논문 DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based LLM http://dx.doi.org/10[...] Association for Computational Linguistics 2023
_[24] 논문 An overview of topic modeling and its current applications in bioinformatics
_[25] 논문 A Topic Modeling Analysis of TCGA Breast and Lung Cancer Transcriptomic Data
_[26] 논문 Modeling Musical Influence with Topic Models https://proceedings.[...] PMLR 2013-05-13
_[27] 저널 인용 Probabilistic Topic Models 2016-06-10
_[28] 저널 인용 http://www.cs.berkel[...] 2017-01-03
_[29] 저널 인용 http://www.cs.brown.[...] 2017-01-03
_[30] 저널 인용 http://jmlr.csail.mi[...] 2017-01-03
_[31] 저널 인용 http://www.cs.prince[...] 2017-01-03
_[32] 저널 인용 http://www.cs.berkel[...] 2017-01-03
_[33] ArXiv 인용 Learning Topic Models—Going beyond SVD

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

토픽 모델
기본 정보
토픽 모델의 그래픽 모델
유형	통계 모형
분야	자연어 처리, 기계 학습
개발자	데이비드 블라이, 앤드루 응, 마이클 I. 조던
상세 정보
목적	문서 집합에서 추상적인 "토픽" 발견
입력값	문서 집합
출력값	토픽 분포, 토픽별 단어 분포
관련 항목	잠재 디리클레 할당, 의미론적 분석