Gensim
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
Gensim은 자연어 처리를 위한 오픈 소스 Python 라이브러리이다. fastText, word2vec, doc2vec 등의 텍스트 임베딩 알고리즘과 잠재 의미 분석(LSA, LSI, SVD), 비음수 행렬 분해(NMF), 잠재 디리클레 할당(LDA), tf-idf, 무작위 투영(지역 민감 해싱) 등의 텍스트 분석 알고리즘의 스트리밍 병렬 구현을 제공한다. 다양한 분야에서 널리 사용되며, GitHub에서 개발 및 호스팅되고, Google Groups와 Gitter에서 지원 포럼을 운영한다. 상업적 지원은 rare-technologies.com에서 제공하며, 학생 멘토십 프로그램도 운영한다.
더 읽어볼만한 페이지
- 자유 과학 소프트웨어 - BOINC
BOINC는 분산 컴퓨팅 프로젝트를 위한 오픈 소스 플랫폼으로, 개인 컴퓨터의 유휴 자원을 활용하여 과학 연구에 기여하도록 설계되었으며, GPU를 활용하여 계산 속도를 향상시키고 크레딧 시스템을 통해 기여도를 측정한다. - 자유 과학 소프트웨어 - SciPy
SciPy는 NumPy 배열 구조를 기반으로 수치 적분, 선형 대수, 최적화, 통계 등 과학 및 공학 계산에 사용되는 다양한 기능을 제공하는 파이썬 과학 컴퓨팅 라이브러리이다. - 파이썬 라이브러리 - Tkinter
Tkinter는 Tcl/Tk 툴킷을 파이썬 래퍼로 구현한 GUI 표준 라이브러리로서, 다양한 위젯과 배치 관리자를 제공하며 테마 Tk 기능을 통해 위젯 외관을 변경할 수 있도록 지원한다. - 파이썬 라이브러리 - SciPy
SciPy는 NumPy 배열 구조를 기반으로 수치 적분, 선형 대수, 최적화, 통계 등 과학 및 공학 계산에 사용되는 다양한 기능을 제공하는 파이썬 과학 컴퓨팅 라이브러리이다.
Gensim - [IT 관련 정보]에 관한 문서 |
---|
2. 주요 기능
Gensim은 fastText[14], word2vec[15], doc2vec[15]과 같은 단어 및 문서 임베딩 알고리즘과 잠재 의미 분석 (LSA)[16], 잠재 디리클레 할당 (LDA)[16] 등의 토픽 모델링 알고리즘을 포함한 다양한 자연어 처리 기법의 효율적인 구현을 제공한다. 특히, 이러한 알고리즘들의 스트리밍 병렬 처리를 지원하여 대규모 텍스트 데이터셋 처리의 확장성을 높였다.[16] Gensim의 일부 새로운 온라인 알고리즘은 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문에도 게재되었다.[17]
2. 1. 텍스트 임베딩 알고리즘
Gensim은 fastText[27][1][14], word2vec[28][2][15], doc2vec 알고리즘[28][2][15]의 스트리밍 병렬 처리 구현을 포함한다. 또한 잠재 의미 분석(LSA, LSI, SVD)[29][3][16], 비음수 행렬 분해(NMF)[29][3][16], 잠재 디리클레 할당(LDA)[29][3][16], tf-idf[29][3][16], 랜덤 프로젝션[29][3][16] 등의 알고리즘 구현체도 포함하고 있다.Gensim의 새로운 온라인 알고리즘 중 일부는 Gensim의 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문 '자연어 처리에서 의미론적 분석의 확장성'에도 게재되었다.[30][4][17]
2. 2. 텍스트 분석 알고리즘
Gensim은 fastText[14], word2vec, doc2vec 알고리즘의 스트리밍 병렬 구현을 포함하며[15], 이외에도 잠재 의미 분석(LSA, LSI, SVD), 비음수 행렬 분해 (NMF), 잠재 디리클레 할당 (LDA), tf-idf, 무작위 투영 등의 알고리즘을 지원한다.[16]Gensim의 새로운 온라인 알고리즘 중 일부는 Gensim 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문 『자연어 처리에서의 의미 분석의 확장성』에도 게재되었다.[17]
2. 3. 확장성
Gensim은 fastText[1], word2vec 및 doc2vec 알고리즘[2]과 더불어 잠재 의미 분석 (LSA, LSI, SVD), 비음수 행렬 분해 (NMF), 잠재 디리클레 할당 (LDA), tf-idf 및 랜덤 프로젝션의 스트리밍 병렬 처리 구현을 포함한다.[3]Gensim의 새로운 온라인 알고리즘 중 일부는 Gensim의 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문 "자연어 처리에서의 의미 분석 확장성"에 게재되었다.[4]
3. Gensim의 활용
Gensim 라이브러리는 자연어 처리 분야에서 텍스트 분석 및 모델링을 위한 강력한 도구로, 학계와 산업계 전반에 걸쳐 다양한 목적으로 널리 활용되고 있다.[5][18][19] 그 유용성과 성능으로 인해 여러 매체를 통해 소개되기도 하였다.[7][8][9][20][21][22]
3. 1. 활용 분야
2018년 기준으로 Gensim 라이브러리는 1,400개 이상의 상업 및 학술 분야에서 사용 및 인용되었다.[5][18][19] 의학, 보험금 청구 분석, 특허 검색 등 다양한 분야에서 활용되고 있다.[6] 또한, Gensim은 여러 새로운 기사, 팟캐스트 및 인터뷰에서도 다루어졌다.[7][8][9][20][21][22]4. 지원
Gensim은 오픈 소스 커뮤니티와 상업적 지원을 통해 개발 및 유지보수가 이루어진다. 소스 코드는 깃허브[23]에서 관리되며, 구글 그룹스[24]와 Gitter|기터eng[25]를 통해 사용자 지원이 제공된다. 또한, rare-technologies.com을 통한 상업적 지원과 학생 멘토십 프로그램[26]도 운영되고 있다.
4. 1. 오픈 소스 지원
Gensim의 소스 코드는 깃허브[23]에서 개발 및 공개되고 있으며, 공개 지원 포럼은 구글 그룹스[24]와 Gitter|기터영어[25]에서 운영된다.Gensim은 rare-technologies.com에서 상업적으로 지원하며, 학생 인큐베이터 프로그램을 통해 학생 멘토십 및 학술 논문 프로젝트도 제공한다[26].
4. 2. 상업적 지원
Gensim의 소스 코드는 깃허브[23]에서 개발 및 공개되고 있으며, 구글 그룹스[24]와 Gittereng[25]에서 공개 지원 포럼이 운영되고 있다.Gensim은 rare-technologies.com 사에 의해 상업적으로 지원받고 있다. 이 회사는 학생 인큐베이터 프로그램을 통해 Gensim 관련 학생 멘토십과 학술 논문 프로젝트도 제공한다[26].
참조
[1]
웹사이트
Scalable *2vec training
https://github.com/R[...]
[2]
웹사이트
Deep learning with word2vec and Gensim
http://radimrehurek.[...]
[3]
간행물
Software framework for topic modelling with large corpora
http://is.muni.cz/pu[...]
2010
[4]
웹사이트
Scalability of Semantic Analysis in Natural Language Processing
http://radimrehurek.[...]
2011
[5]
웹사이트
Gensim academic citations
https://scholar.goog[...]
[6]
웹사이트
Commercial adopters of Gensim
https://github.com/R[...]
[7]
웹사이트
Podcast.__init__ episode #71 on Gensim
https://www.podcasti[...]
[8]
웹사이트
Interview with Radim Řehůřek, creator of Gensim
http://williamjohnbe[...]
[9]
웹사이트
DecisionStats Interview Radim Řehůřek Gensim #python
http://decisionstats[...]
2015-12-08
[10]
웹사이트
Gensim source code on Github
https://github.com/r[...]
[11]
웹사이트
Gensim mailing list on Google Groups
https://groups.googl[...]
[12]
웹사이트
Gensim chat room on Gitter
https://gitter.im/Ra[...]
[13]
웹사이트
Gensim open source Incubator
https://rare-technol[...]
[14]
웹사이트
Scalable *2vec training
https://github.com/R[...]
[15]
웹사이트
Deep learning with word2vec and Gensim
http://radimrehurek.[...]
[16]
간행물
Software framework for topic modelling with large corpora
http://is.muni.cz/pu[...]
2010
[17]
웹사이트
Scalability of Semantic Analysis in Natural Language Processing
http://radimrehurek.[...]
2011
[18]
웹사이트
Gensim academic citations
https://scholar.goog[...]
[19]
웹사이트
Commercial adopters of Gensim
https://github.com/R[...]
[20]
웹사이트
Podcast.__init__ episode #71 on Gensim
https://www.podcasti[...]
[21]
웹사이트
Interview with Radim Řehůřek, creator of Gensim
http://williamjohnbe[...]
[22]
웹사이트
DecisionStats Interview Radim Řehůřek Gensim #python
http://decisionstats[...]
2015-12-08
[23]
웹사이트
Gensim source code on Github
https://github.com/r[...]
[24]
웹사이트
Gensim mailing list on Google Groups
https://groups.googl[...]
[25]
웹사이트
Gensim chat room on Gitter
https://gitter.im/Ra[...]
[26]
웹사이트
Gensim open source Incubator
https://rare-technol[...]
[27]
웹사이트
Scalable *2vec training
https://github.com/R[...]
[28]
웹사이트
Deep learning with word2vec and Gensim
http://radimrehurek.[...]
[29]
간행물
Software framework for topic modelling with large corpora
http://is.muni.cz/pu[...]
2010
[30]
웹인용
Scalability of Semantic Analysis in Natural Language Processing
http://radimrehurek.[...]
2011
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com