불용어

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

불용어는 정보 검색 및 자연어 처리에서 널리 사용되는 개념으로, 검색 엔진이 크롤링 및 색인 과정에서 처리하지 않거나, 텍스트 분석에서 제외되는 단어를 의미한다. 불용어의 개념은 성경 합동 제작 과정에서 처음 사용되었으며, 정보 검색의 선구자 한스 피터 루언에 의해 "불용어"라는 용어가 사용되었다. 초기에는 단어 빈도 정보를 기반으로 불용어 목록이 구성되었으며, C.J. 반 라이스버겐의 목록과 마틴 포터의 어간 추출 프로그램이 개발되었다. 1990년 크리스토퍼 폭스는 경험적 단어 빈도 정보를 기반으로 한 불용어 목록을 제안했다. 검색 엔진 최적화(SEO)에서 불용어는 검색 엔진의 성능을 향상시키기 위해 사용되며, 머신 러닝 및 자연어 처리 분야에서도 중요한 역할을 한다. 최근에는 구글의 웹마스터 트렌드 분석가 존 뮬러가 불용어에 대한 중요성이 감소했음을 언급했다.

불용어

📚 더 읽어볼만한 페이지

정보 검색 기술 - 해시태그
해시태그는 2007년 트위터에서 관심 주제를 묶기 위해 제안되어 마이크로블로깅 네트워크에서 널리 사용되기 시작했으며, 다양한 분야에서 활용되고 언어학적 분석의 대상이 되기도 한다.
정보 검색 기술 - 개인화
개인화는 청중의 요구에 맞춰 맞춤형 경험을 제공하는 행위로, 웹사이트, 지도 등 다양한 매체에서 사용자의 특성을 기반으로 하며, 필터 버블과 같은 사회적 영향을 미칠 수 있다.

1. 개요
2. 불용어의 역사
3. 검색 엔진 최적화 (SEO)와 불용어
4. 머신 러닝 및 자연어 처리와 불용어
5. 한국어 불용어 처리

2. 불용어의 역사

성경 합동을 만들 때 전신 개념이 사용되었다. 예를 들어, 최초의 히브리어 합동인 이삭 나단 벤 칼로니무스의 Me’ir Nativ^he-Latn에는 현대적인 불용어와 유사한 비실질적인 전치사와 접속사가 포함된 색인되지 않은 단어의 한 페이지 목록이 있었다.

정보 검색의 선구자 중 한 명인 한스 피터 루언은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 이 문구를 만들고 이 개념을 사용한 것으로 인정받고 있다. 1959년 루언의 발표에는 "불용어"라는 문구가 없었지만, 관련 용어인 "불용어 목록" 및 "stoplist"는 그 직후 문헌에 나타났다.

C.J. 반 라이스버겐은 단어 빈도 정보를 기반으로 하지 않은 최초의 표준화된 불용어 목록을 제안하였다. "Van 목록"에는 250개의 영어 단어가 포함되어 있었다. 1980년대에 개발된 마틴 포터의 단어 어간 추출 프로그램은 Van 목록을 기반으로 했으며, 현재 Porter 목록은 다양한 소프트웨어 응용 프로그램에서 기본 불용어 목록으로 널리 사용되고 있다.

1990년에 크리스토퍼 폭스는 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 기반으로 한 최초의 일반 불용어 목록을 제안했다. Brown Corpus에서 300번 이상 발생하는 토큰 목록을 기반으로, 최종 421개의 불용어 목록을 생성했다.

SEO 용어에서 불용어는 많은 검색 엔진이 크롤링 또는 색인 중에 대량의 데이터를 처리하는 데 공간과 시간을 절약하기 위해 사용을 피했던 가장 일반적인 단어이다.

일부 검색 엔진의 경우, the, is, at, which, on과 같은 가장 일반적이고 짧은 기능어가 불용어에 해당한다. 이 때문에 "더 후(The Who)", "더 더(The The)", "테이크 댓(Take That)"과 같이 불용어가 포함된 구문을 검색할 때 문제가 발생할 수 있다. 다른 검색 엔진은 쿼리에서 "want"와 같은 어휘 단어를 포함하여 가장 일반적인 단어 중 일부를 제거함으로써 성능을 향상시키기도 한다.

최근 몇 년 동안 불용어에 대한 SEO 모범 사례는 머신 러닝 및 자연어 처리 분야와 함께 발전해 왔다. 2021년 2월, 구글의 웹마스터 트렌드 분석가 존 뮬러는 트위터를 통해 "불용어에 대해 전혀 걱정할 필요가 없습니다. 자연스럽게 작성하십시오. 검색 엔진은 개별 단어보다 훨씬 더 많은 것을 고려합니다. '사느냐 죽느냐(To be or not to be)'는 불용어 모음일 뿐이지만, 불용어만으로는 제대로 평가되지 않습니다."라고 언급했다.

2.1. 초기 개념

성경 합동을 만들 때 전신 개념이 사용되었다. 예를 들어, 최초의 히브리어 합동인 이삭 나단 벤 칼로니무스의 Me’ir Nativ^he-Latn에는 현대적인 불용어와 유사한 비실질적인 전치사 및 접속사가 포함된 색인되지 않은 단어의 한 페이지 목록이 있었다.

정보 검색의 선구자 중 한 명인 한스 피터 루언은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 이 문구를 만들고 이 개념을 사용한 것으로 인정받고 있다. 1959년 루언의 발표에는 "불용어"라는 문구는 없었지만, 관련 용어인 "불용어 목록" 및 "stoplist"는 그 직후 문헌에 나타났다.

C.J. 반 라이스버겐은 단어 빈도 정보를 기반으로 하지 않은 최초의 표준화된 불용어 목록을 제안하였다. "Van 목록"에는 250개의 영어 단어가 포함되어 있었다. 1980년대에 개발된 마틴 포터의 단어 어간 추출 프로그램은 Van 목록을 기반으로 했으며, 현재 Porter 목록은 다양한 소프트웨어 응용 프로그램에서 기본 불용어 목록으로 널리 사용되고 있다.

1990년에 크리스토퍼 폭스는 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 기반으로 한 최초의 일반 불용어 목록을 제안했다. Brown Corpus에서 300번 이상 발생하는 토큰 목록을 기반으로, 최종 421개의 불용어 목록을 생성했다.

2.2. 정보 검색의 선구자

정보 검색의 선구자로 인정받는 한스 피터 루언(Hans Peter Luhn)은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 이 개념을 사용했다. 1959년 루언의 발표에는 "불용어"라는 문구는 없었지만, "불용어 목록" 및 "stoplist"와 같은 관련 용어는 곧 문헌에 나타났다.

C.J. 반 라이스버겐(C.J. Van Rijsbergen)은 단어 빈도 정보에 기반하지 않은 최초의 표준화된 목록을 제안했다. "Van 목록"에는 250개의 영어 단어가 포함되었다. 1980년대에 개발된 마틴 포터(Martin Porter)의 단어 어간 추출 프로그램은 Van 목록을 기반으로 했으며, 현재 Porter 목록은 다양한 소프트웨어 응용 프로그램에서 기본 불용어 목록으로 널리 사용되고 있다.

1990년, 크리스토퍼 폭스(Christopher Fox)는 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 기반으로 최초의 일반 불용어 목록을 제안했다.

SEO 용어에서 불용어는 많은 검색 엔진이 크롤링 또는 색인 과정에서 대량의 데이터를 처리하는 데 드는 공간과 시간을 절약하기 위해 사용을 피했던 가장 일반적인 단어였다.

일부 검색 엔진의 경우, the, is, at, which, on과 같은 가장 일반적이고 짧은 기능어가 불용어에 해당한다. 이 때문에 "더 후(The Who)", "더 더(The The)", "테이크 댓(Take That)"과 같이 불용어가 포함된 구문을 검색할 때 문제가 발생할 수 있다. 다른 검색 엔진은 쿼리에서 "want"와 같은 어휘 단어를 포함하여 가장 일반적인 단어 중 일부를 제거함으로써 성능을 향상시키기도 한다.

최근 몇 년 동안 불용어에 대한 SEO 모범 사례는 머신 러닝 및 자연어 처리 분야와 함께 발전해 왔다. 2021년 2월, 구글의 웹마스터 트렌드 분석가 존 뮬러(John Mueller)는 트위터를 통해 "불용어에 대해 전혀 걱정할 필요가 없습니다. 자연스럽게 작성하십시오. 검색 엔진은 개별 단어보다 훨씬 더 많은 것을 고려합니다. '사느냐 죽느냐(To be or not to be)'는 불용어 모음일 뿐이지만, 불용어만으로는 제대로 평가되지 않습니다."라고 언급했다.

2.3. 초기 불용어 목록

성경 합동을 만들 때 전신 개념이 사용되었다. 예를 들어, 최초의 히브리어 합동인 이삭 나단 벤 칼로니무스(Isaac Nathan ben Kalonymus)의 Me’ir Nativ^he-Latn에는 현대적인 불용어와 유사한 비실질적인 전치사와 접속사가 포함된 색인되지 않은 단어의 한 페이지 목록이 포함되어 있었다.

정보 검색의 선구자 중 한 명인 한스 피터 루언(Hans Peter Luhn)은 자신의 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 이 문구를 만들고 이 개념을 사용한 것으로 인정받고 있다. 루언의 1959년 발표에는 "불용어"라는 문구가 없지만, 관련 용어인 "불용어 목록" 및 "stoplist"는 그 직후 문헌에 나타났다.

C.J. 반 라이스버겐(C.J. Van Rijsbergen)은 언어에서 가장 빈번하게 사용되는 단어만 불용어 목록에 포함된다고 일반적으로 가정하지만, 단어 빈도 정보를 기반으로 하지 않은 최초의 표준화된 목록을 제안하였다. "Van 목록"에는 250개의 영어 단어가 포함되어 있었다. 1980년대에 개발된 마틴 포터(Martin Porter)의 단어 어간 추출 프로그램은 Van 목록을 기반으로 했으며, 현재 Porter 목록은 다양한 소프트웨어 응용 프로그램에서 기본 불용어 목록으로 널리 사용되고 있다.

1990년에 크리스토퍼 폭스(Christopher Fox)는 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 기반으로 한 최초의 일반 불용어 목록을 제안했다. 그는 Brown Corpus에서 300번 이상 발생하는 토큰 목록으로 시작하여 잠재적인 색인어로 너무 중요하다고 판단되는 32개를 제거하고, 특정 종류의 문헌에서 매우 자주 발생할 수 있다는 이유로 26개의 단어를 추가했다. 마지막으로, 유한 상태 머신 기반 필터가 거의 비용 없이 필터링할 수 있기 때문에 149개의 단어가 추가되어 최종적으로 421개의 불용어 목록이 만들어졌다.

2.4. 경험적 불용어 목록

이삭 나단 벤 칼로니무스의 히브리어 성경 합본에는 현대적인 불용어와 유사하게 색인되지 않은 전치사 및 접속사 목록이 포함되어 있었다. 정보 검색의 선구자인 한스 피터 루언은 Keyword-in-Context 자동 색인 프로세스에서 불용어 개념을 사용했다.

C.J. 반 라이스버겐은 단어 빈도 정보에 기반하지 않은 최초의 표준화된 불용어 목록을 제안했는데, 여기에는 250개의 영어 단어가 포함되었다. 마틴 포터의 단어 어간 추출 프로그램은 이 목록을 기반으로 했으며, 현재 다양한 소프트웨어에서 기본 불용어 목록으로 널리 사용된다.

1990년 크리스토퍼 폭스는 Brown Corpus의 경험적 단어 빈도 정보를 기반으로 한 최초의 일반 불용어 목록을 제안했다. 이 목록은 영어 일반 문헌에서 가장 자주 발생하고 의미적으로 중립적인 421개 단어로 구성되었다.

SEO에서 불용어는 검색 엔진이 크롤링 및 색인 과정에서 데이터 처리 효율성을 위해 사용을 피했던 일반적인 단어들을 의미한다. 일부 검색 엔진은 'the', 'is', 'at', 'which', 'on'과 같은 짧은 기능어를 불용어로 처리하여 성능을 향상시킨다.

최근 머신 러닝 및 자연어 처리 분야가 발전하면서 불용어에 대한 SEO 모범 사례도 변화하고 있다. 구글의 존 뮬러는 "불용어에 대해 걱정할 필요가 없으며, 자연스럽게 작성하면 검색 엔진은 개별 단어보다 더 많은 것을 고려한다"고 언급했다.

3. 검색 엔진 최적화 (SEO)와 불용어

검색 엔진 최적화(SEO)에서 불용어는 검색 엔진이 크롤링이나 색인 과정에서 데이터 처리 공간과 시간을 절약하기 위해 무시하는 단어이다.

일부 검색 엔진은 'the', 'is', 'at', 'which', 'on'과 같은 짧은 기능어를 불용어로 처리한다. 이 때문에 "더 후(The Who)", "더 더(The The)", "테이크 댓(Take That)"처럼 불용어가 포함된 구문을 검색하기 어려울 수 있다. 다른 검색 엔진은 'want' 같은 어휘 단어를 제거하여 성능을 높이기도 한다.

최근 머신 러닝과 자연어 처리 발전으로 SEO 모범 사례가 변화하고 있다. 2021년 2월, 구글 웹마스터 트렌드 분석가 존 뮬러는 트위터에서 "불용어에 대해 걱정할 필요 없습니다. 자연스럽게 작성하세요. 검색 엔진은 개별 단어 이상을 봅니다. '사느냐 죽느냐(To be or not to be)'는 불용어 모음이지만, 그것만으로 제대로 평가되지 않습니다."라고 언급했다.

3.1. 검색 엔진에서의 불용어 처리

정보 검색의 선구자인 한스 피터 루언(Hans Peter Luhn)은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 불용어 개념을 사용했다. SEO 용어에서 불용어는 많은 검색 엔진이 크롤링 또는 색인 과정에서 데이터 처리 공간과 시간을 절약하기 위해 사용을 피했던 가장 일반적인 단어이다.

일부 검색 엔진에서는 the, is, at, which, on과 같은 가장 일반적이고 짧은 기능어를 불용어로 처리한다. 이 때문에 "더 후(The Who)", "더 더(The The)", "테이크 댓(Take That)"과 같이 불용어가 포함된 구문을 검색할 때 문제가 발생할 수 있다. 다른 검색 엔진은 쿼리에 "want"와 같은 어휘 단어를 포함하여 가장 일반적인 단어 중 일부를 제거함으로써 성능을 향상시킨다.

최근 머신 러닝 및 자연어 처리 분야가 발전하면서 불용어에 대한 SEO 모범 사례도 변화하고 있다. 2021년 2월, 구글의 웹마스터 트렌드 분석가 존 뮬러(John Mueller)는 트위터를 통해 "불용어에 대해 전혀 걱정할 필요가 없습니다. 자연스럽게 작성하십시오. 검색 엔진은 개별 단어보다 훨씬 더 많은 것을 고려합니다. '사느냐 죽느냐(To be or not to be)'는 불용어 모음일 뿐이지만, 불용어만으로는 제대로 평가되지 않습니다."라고 언급했다.

3.2. 불용어 처리의 문제점

정보 검색의 선구자 중 한 명인 한스 피터 루언(Hans Peter Luhn)은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 불용어라는 개념을 사용했다.

일부 검색 엔진의 경우, 'the', 'is', 'at', 'which', 'on'과 같은 가장 일반적이고 짧은 기능어가 불용어에 해당한다. 이 경우 불용어는 "더 후(The Who)", "더 더(The The)", 또는 "테이크 댓(Take That)"과 같이 불용어가 포함된 구문을 검색할 때 문제를 일으킬 수 있다. 다른 검색 엔진은 쿼리에서 "want"와 같은 어휘 단어를 포함하여 가장 일반적인 단어 중 일부를 제거하여 성능을 향상시키기도 한다.

최근 몇 년 동안 불용어에 대한 SEO 모범 사례는 머신 러닝 및 자연어 처리 분야와 함께 발전해 왔다. 2021년 2월, 구글의 웹마스터 트렌드 분석가인 존 뮬러(John Mueller)는 트위터를 통해 "불용어에 대해 전혀 걱정하지 않아도 됩니다. 자연스럽게 작성하십시오. 검색 엔진은 개별 단어보다 훨씬 더 많은 것을 살펴봅니다. '사느냐 죽느냐(To be or not to be)'는 불용어 모음일 뿐이지만 불용어만으로는 제대로 평가되지 않습니다."라고 언급했다.

3.3. 성능 향상을 위한 불용어 처리

정보 검색의 선구자인 한스 피터 루언(Hans Peter Luhn)은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 불용어 개념을 사용했다. 1980년대에 개발된 마틴 포터(Martin Porter)의 단어 어간 추출 프로그램은 현재 다양한 소프트웨어 응용 프로그램에서 기본 불용어 목록으로 널리 사용되고 있다.

1990년에 크리스토퍼 폭스(Christopher Fox)는 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 기반으로 한 최초의 일반 불용어 목록을 제안했다.

SEO 용어에서 불용어는 많은 검색 엔진이 크롤링 또는 색인 중에 대량의 데이터를 처리하는 데 공간과 시간을 절약하기 위해 사용을 피했던 가장 일반적인 단어이다. 일부 검색 엔진의 경우, 이러한 단어는 the, is, at, which, on과 같은 가장 일반적이고 짧은 기능어이다. 다른 검색 엔진은 쿼리에 "want"와 같은 어휘 단어를 포함하여 가장 일반적인 단어 중 일부를 제거하여 성능을 향상시킨다.

최근 몇 년 동안 불용어에 대한 SEO 모범 사례는 머신 러닝 및 자연어 처리 분야와 함께 발전해 왔다.

4. 머신 러닝 및 자연어 처리와 불용어

정보 검색의 선구자 중 한 명인 한스 피터 루언(Hans Peter Luhn)은 Keyword-in-Context 자동 인덱싱 프로세스를 소개하면서 불용어 개념을 사용했다. 1990년에는 크리스토퍼 폭스(Christopher Fox)가 Brown Corpus에서 파생된 경험적 단어 빈도 정보를 기반으로 한 최초의 일반 불용어 목록을 제안했다.

최근 머신 러닝 및 자연어 처리 분야가 발전하면서 SEO의 불용어 관련 모범 사례도 변화했다. 2021년 2월, 구글의 웹마스터 트렌드 분석가 존 뮬러(John Mueller)는 트위터를 통해 "불용어에 대해 전혀 걱정하지 않아도 됩니다. 자연스럽게 작성하십시오. 검색 엔진은 개별 단어보다 훨씬 더 많은 것을 살펴봅니다. '사느냐 죽느냐(To be or not to be)'는 불용어 모음일 뿐이지만 불용어만으로는 제대로 평가되지 않습니다."라고 언급했다.

5. 한국어 불용어 처리

한국어 불용어는 일반적으로 텍스트 데이터를 처리하기 전에 제거되는 단어들이다. 이는 한국어 텍스트 분석의 정확성과 효율성을 높이는 데 기여한다. 한국어 불용어는 다음과 같은 기준으로 선정될 수 있다.

* 빈도: 자주 등장하지만 의미 구분에 큰 영향을 주지 않는 단어 (예: 조사, 접속사)
* 품사: 특정 품사의 단어 (예: 감탄사, 지시 대명사)
* 길이: 매우 짧은 단어 (예: 한 글자 단어)
* 분포: 특정 문서 집합에서만 자주 나타나는 단어

불용어 목록은 분석 목적과 데이터 특성에 따라 달라질 수 있다. 예를 들어, 감성 분석에서는 긍정/부정 의미를 가진 형용사나 동사는 불용어로 처리하지 않는다.

한국어 불용어 처리는 다음과 같은 도구를 사용하여 수행할 수 있다.

* KoNLPy: 파이썬 한국어 자연어 처리 라이브러리. 다양한 형태소 분석기와 불용어 목록 제공.
* NLTK: 파이썬 자연어 처리 라이브러리. 한국어 불용어 목록 제공.
* 사용자 정의 불용어 목록: 필요에 따라 직접 불용어 목록을 만들어 사용.

불용어 처리는 텍스트 데이터 전처리 과정의 중요한 단계이며, 분석 결과의 품질을 향상시키는 데 중요한 역할을 한다.