맨위로가기

SpaCy

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

spaCy는 자연어 처리 작업을 위한 오픈 소스 소프트웨어 라이브러리이다. 2016년에 처음 출시되었으며, 사용자 정의 처리 파이프라인, 개체명 인식, 텍스트 분류 등을 지원한다. 2017년에는 컨볼루션 신경망 모델을 도입했고, 2021년에는 트랜스포머 기반 파이프라인을 통해 성능을 향상시켰다. spaCy는 65개 이상의 언어에 대한 토큰화를 지원하며, 개체명 인식, 품사 태깅, 구문 분석, 텍스트 분류 등의 기능을 제공한다. 또한 Thinc, sense2vec, displaCy, displaCyENT와 같은 확장 기능과 시각화 도구를 함께 제공한다.

더 읽어볼만한 페이지

  • 자유 과학 소프트웨어 - BOINC
    BOINC는 분산 컴퓨팅 프로젝트를 위한 오픈 소스 플랫폼으로, 개인 컴퓨터의 유휴 자원을 활용하여 과학 연구에 기여하도록 설계되었으며, GPU를 활용하여 계산 속도를 향상시키고 크레딧 시스템을 통해 기여도를 측정한다.
  • 자유 과학 소프트웨어 - SciPy
    SciPy는 NumPy 배열 구조를 기반으로 수치 적분, 선형 대수, 최적화, 통계 등 과학 및 공학 계산에 사용되는 다양한 기능을 제공하는 파이썬 과학 컴퓨팅 라이브러리이다.
  • 파이썬 라이브러리 - Tkinter
    Tkinter는 Tcl/Tk 툴킷을 파이썬 래퍼로 구현한 GUI 표준 라이브러리로서, 다양한 위젯과 배치 관리자를 제공하며 테마 Tk 기능을 통해 위젯 외관을 변경할 수 있도록 지원한다.
  • 파이썬 라이브러리 - SciPy
    SciPy는 NumPy 배열 구조를 기반으로 수치 적분, 선형 대수, 최적화, 통계 등 과학 및 공학 계산에 사용되는 다양한 기능을 제공하는 파이썬 과학 컴퓨팅 라이브러리이다.
  • 2015년 소프트웨어 - 알파고
    알파고는 구글 딥마인드가 개발한 인공지능 바둑 프로그램으로, 심층 신경망과 몬테카를로 트리 탐색 알고리즘을 결합하여 자가 학습을 통해 인간을 뛰어넘는 바둑 실력을 달성하며 인공지능 기술 발전과 사회적 영향에 대한 논의를 촉발했다.
  • 2015년 소프트웨어 - 구글 포토
    구글 포토는 사진 및 동영상 저장, 공유, 관리 기능을 제공하는 구글의 클라우드 기반 서비스로, 자동 분류, 얼굴 인식, 검색 기능을 제공하지만 2021년부터 무료 무제한 저장 용량 제공 정책이 변경되었고, 2024년에는 기술의 군사적 이용에 대한 윤리적 논란이 있었다.
SpaCy - [IT 관련 정보]에 관한 문서
기본 정보
SpaCy 로고
SpaCy 로고
종류자연어 처리 소프트웨어 라이브러리
개발
개발자Matthew Honnibal
개발 기관Explosion AI, 여러 기여자
최초 출시일2015년 2월
일반 정보
최신 버전 출시일}}
프로그래밍 언어Python, Cython
운영체제리눅스, 윈도우, macOS
플랫폼크로스 플랫폼
라이선스MIT 라이선스
웹사이트SpaCy 공식 웹사이트

2. 역사

SpaCy는 여러 버전을 거치며 발전해왔다. 2016년 10월 19일에 1.0 버전,[9] 2017년 11월 7일에는 2.0 버전,[10] 2021년 2월 1일에는 3.0 버전이 출시되었다.[11] 3.0 버전에서는 Python 2 지원이 중단되었다. 각 버전에 대한 자세한 내용은 하위 섹션을 참고하면 된다.

2. 1. 1.0 버전 (2016년 10월)

1.0 버전은 2016년 10월 19일에 출시되었으며, 사용자 정의 처리 파이프라인을 지원하여 딥 러닝 워크플로우에 대한 예비 지원을 포함했다.[9] 또한 개체명 인식 주석을 지원하는 규칙 매처와 공식적으로 문서화된 학습 API를 포함했다.

2. 2. 2.0 버전 (2017년 11월)

2.0 버전은 2017년 11월 7일에 출시되었으며, 7개 언어에 대한 컨볼루션 신경망 모델을 도입했다.[10] 사용자 정의 처리 파이프라인 구성 요소 및 확장 속성을 지원했으며, 내장형으로 학습 가능한 텍스트 분류 구성 요소를 특징으로 했다.

2. 3. 3.0 버전 (2021년 2월)

2021년 2월 1일에 출시된 3.0 버전에서는 최첨단 트랜스포머 기반 파이프라인을 도입했다.[11] 새로운 구성 시스템과 학습 워크플로우, 타입 힌트 및 프로젝트 템플릿도 도입되었다. 이 버전에서는 Python 2에 대한 지원이 중단되었다.

3. 주요 특징


  • 비파괴적인 토큰화를 지원한다.
  • 65개 이상의 언어(한국어 포함)에 대한 토큰화를 지원한다.[12]
  • 개체명 인식, 품사 태깅, 구문 분석, 텍스트 분류, 개체 연결 등 훈련 가능한 파이프라인 구성 요소를 내장하고 있다.
  • 19개 언어에 대한 통계적 모델을 제공한다.[13]
  • BERT와 같은 사전 훈련된 변환기를 사용한 다중 작업 학습을 지원한다.
  • PyTorch, TensorFlow 등 다양한 딥 러닝 프레임워크에서 사용자 정의 모델을 지원한다.
  • 빠른 속도와 높은 정확도를 제공한다.[14]
  • 프로덕션 환경에 적합한 훈련 시스템을 제공한다.
  • 구문개체명을 위한 내장 시각화 도구를 제공한다.
  • 쉬운 모델 패키징, 배포 및 워크플로우 관리를 지원한다.
  • 비파괴적 어구 분석을 지원한다.
  • 25개 이상의 언어에 대한 어구 분석을 지원한다.[26]
  • 8개 언어의 통계 모델을 제공한다.[27]
  • 사전 훈련된 단어 벡터를 제공한다.
  • 품사 태깅을 지원한다.
  • 레이블이 지정된 의존 문법 분석을 지원한다.
  • 통사론 기반의 문장 분할을 지원한다.
  • 문서 분류를 지원한다.
  • 구문 트리개체명을 위한 내장 시각화 도구를 제공한다.

4. 확장 기능 및 시각화 도구

spaCy는 여러 가지 확장 기능과 시각화 도구를 제공하며, 이는 무료 오픈 소스 라이브러리로 사용할 수 있다. 주요 확장 기능 및 시각화 도구는 다음과 같다.


  • Thinc
  • sense2vec
  • displaCy
  • displaCyENT

4. 1. Thinc

CPU를 사용한 텍스트 입력에 대한 딥 러닝에 최적화된 기계 학습 라이브러리이다.

4. 2. sense2vec

sense2vec영어Word2vec을 기반으로 단어 유사성을 계산하기 위한 라이브러리이다.[15][28]

4. 3. displaCy

displaCy 시각화 도구로 생성된 의존 구문 분석 트리 시각화
displaCy 시각화 도구로 생성된 의존 구문 분석 트리 시각화


displaCy는 자바스크립트, CSS, SVG로 제작된 오픈 소스 의존 구문 분석 트리 시각화 도구이다.

4. 4. displaCyENT

displaCyENT자바스크립트, CSS로 제작된 오픈 소스 개체명 인식 시각화 도구이다.

참조

[1] 웹사이트 Introducing spaCy https://explosion.ai[...] explosion.ai 2016-12-18
[2] 논문 It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool https://aclweb.org/a[...]
[3] 웹사이트 Google's new artificial intelligence can't understand these sentences. Can you? https://www.washingt[...] 2016-12-18
[4] 웹사이트 Facts & Figures - spaCy 2020-04-04
[5] 저널 Multidisciplinary instruction with the Natural Language Toolkit https://www.aclweb.o[...]
[6] 웹사이트 PyTorch, TensorFlow & MXNet https://thinc.ai/doc[...] 2020-04-04
[7] 웹사이트 explosion/thinc https://github.com/e[...] 2016-12-30
[8] 웹사이트 Models & Languages {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2020-03-10
[9] 웹사이트 explosion/spaCy https://github.com/e[...] 2021-02-08
[10] 웹사이트 explosion/spaCy https://github.com/e[...] 2021-02-08
[11] 웹사이트 explosion/spaCy https://github.com/e[...] 2021-02-08
[12] 웹사이트 Models & Languages - spaCy https://spacy.io/usa[...] 2021-02-08
[13] 웹사이트 Models & Languages {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2021-02-08
[14] 웹사이트 Benchmarks {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2021-02-08
[15] 논문 sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings https://arxiv.org/ab[...]
[16] 웹사이트 Introducing spaCy https://explosion.ai[...] explosion.ai 2016-12-18
[17] 논문 It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool. https://aclweb.org/a[...]
[18] 웹사이트 Google’s new artificial intelligence can’t understand these sentences. Can you? https://www.washingt[...] 2016-12-18
[19] 웹사이트 Models & Languages {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2017-11-08
[20] 웹사이트 Facts & Figures - spaCy https://spacy.io/usa[...] 2017-11-08
[21] 저널 Multidisciplinary instruction with the Natural Language Toolkit https://www.aclweb.o[...]
[22] 웹사이트 Facts & Figures {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2017-11-08
[23] 웹사이트 explosion/spaCy https://github.com/e[...] 2016-12-18
[24] 웹사이트 explosion/thinc https://github.com/e[...] 2016-12-30
[25] 간행물 spaCy: 💫 Industrial-strength Natural Language Processing (NLP) with Python and Cython https://github.com/e[...] Explosion AI 2017-11-08
[26] 웹사이트 Models & Languages - spaCy https://spacy.io/usa[...] 2017-11-08
[27] 웹사이트 Models & Languages {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2017-11-08
[28] 논문 sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings https://arxiv.org/ab[...]
[29] 논문 It Depends: Dependency Parser Comparison Using A Web-based Evaluation Tool https://aclweb.org/a[...]
[30] 웹인용 Google's new artificial intelligence can't understand these sentences. Can you? https://www.washingt[...] 2016-12-18
[31] 웹인용 Facts & Figures - spaCy https://spacy.io/usa[...] 2020-04-04
[32] 저널 Multidisciplinary instruction with the Natural Language Toolkit https://www.aclweb.o[...]
[33] 웹인용 PyTorch, TensorFlow & MXNet https://thinc.ai/doc[...] 2020-04-04
[34] 웹인용 explosion/thinc https://github.com/e[...] 2016-12-30
[35] 웹인용 Models & Languages {{!}} spaCy Usage Documentation https://spacy.io/usa[...] 2020-03-10



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com