전문 검색
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
전문 검색은 텍스트 내에서 특정 정보를 효율적으로 찾기 위한 검색 방식으로, 색인 기반 검색과 비색인 기반 검색으로 분류된다. 색인 기반 검색은 검색 속도가 빠르지만, 색인 생성 및 업데이트가 필요하며, 비색인 기반 검색은 별도의 색인 없이 순차적으로 문서를 검색한다. 전문 검색은 검색 엔진, 기업 내 문서 검색, 데스크톱 검색 등 다양한 분야에서 활용되며, 검색 성능은 정밀도와 재현율, 랭킹 알고리즘에 의해 평가된다. 주요 소프트웨어로는 아파치 루씬, Elasticsearch, PostgreSQL 등이 있다.
더 읽어볼만한 페이지
전문 검색 | |
---|---|
지도 정보 | |
정보 | |
종류 | 검색 기술 |
목적 | 디지털 문서 또는 데이터베이스 내에서 특정 단어 또는 구절을 찾음 문자열 또는 텍스트 검색 |
특징 | 색인된 데이터베이스의 모든 단어 검색 |
장점 | |
정확성 | 사용자가 찾고자 하는 단어 또는 구절을 정확하게 포함하는 모든 문서를 반환 |
포괄성 | 문서 전체를 검색하므로, 색인 시스템이 놓칠 수 있는 정보도 찾을 수 있음 |
유연성 | 다양한 검색 조건 및 연산자 지원 (예: AND, OR, NOT) |
단점 | |
속도 | 대규모 데이터베이스의 경우 검색 속도가 느릴 수 있음 |
관련성 | 검색 결과가 사용자가 실제로 원하는 정보와 관련 없을 수 있음 |
자원 소모 | 많은 시스템 자원 (CPU, 메모리)을 소모할 수 있음 |
활용 분야 | |
웹 검색 엔진 | 웹 페이지 내에서 특정 키워드를 찾음 |
디지털 도서관 | 책 또는 문서 내에서 특정 구절을 찾음 |
법률 데이터베이스 | 판례 또는 법률 문서 내에서 특정 조항을 찾음 |
기업 정보 관리 시스템 | 기업 내 문서 또는 데이터 내에서 특정 정보를 찾음 |
기술적 구현 | |
색인 (Index) | 텍스트를 빠르게 검색하기 위해 사용되는 데이터 구조 |
검색 알고리즘 | 텍스트 내에서 특정 패턴을 찾는 방법 |
자연어 처리 (NLP) | 검색어의 의미를 분석하여 더 정확한 결과를 반환하는 기술 |
추가 정보 | |
관련 기술 | 정보 검색 텍스트 마이닝 데이터 마이닝 |
2. 검색 방식
전문 검색은 크게 색인 기반 검색과 비색인 기반 검색으로 나눌 수 있다.
== 비색인 기반 검색 (순차 스캔) ==
비색인 기반 검색은 별도의 색인 파일을 생성하지 않고, 검색 대상 문서들을 순차적으로 스캔하여 검색어와 일치하는 부분을 찾는 방식이다. 순차 스캔 검색, 순차 검색이라고도 한다. grep은 유닉스에서의 문자열 검색 명령어로, 여러 텍스트 파일의 내용을 순차적으로 스캔하여 검색 대상 문자열을 찾아낸다. 일반적으로 "grep형"이라고 불리는 검색 기법은 사전에 색인 파일(인덱스)을 생성하지 않고 파일을 순차적으로 스캔하기 때문에, 검색 대상이 증가함에 따라 검색 속도가 저하되는 특징이 있다. "grep형"은 실제로 grep 명령어를 사용한다는 의미는 아니다.
== 색인 기반 검색 ==
검색 대상 문서들을 미리 분석하여 색인(index)을 생성하고, 검색 시에는 이 색인을 참조하여 빠르게 검색 결과를 찾는 방식이다.[2] 장점: 대량의 문서에 대한 검색 속도가 빠르다. 단점: 색인 생성 시간이 필요하며, 색인 업데이트를 주기적으로 수행해야 한다.
검색할 문서의 수가 잠재적으로 많거나 수행할 검색 쿼리의 양이 상당한 경우, 전체 텍스트 검색 문제는 종종 인덱싱과 검색의 두 가지 작업으로 나뉜다. 인덱싱 단계는 모든 문서의 텍스트를 스캔하고 검색어 목록(종종 색인이라고 하지만, 더 정확하게는 일람표)을 구축한다. 검색 단계에서는 특정 쿼리를 수행할 때 원본 문서의 텍스트가 아닌 색인만 참조한다.[2]
일반적으로 색인기는 검색에 유용하지 않을 정도로 일반적이고 의미가 부족한 불용어(예: "the"와 "and")를 무시한다. 일부 색인기는 또한 색인될 단어에 대해 언어별 어간 추출을 사용한다. 예를 들어, "drives", "drove", "driven"과 같은 단어는 "drive"라는 단일 개념 단어 아래의 색인에 기록된다.
검색 대상 문서 수가 방대한 경우, grep형은 검색을 수행할 때마다 개별 문서에 접근하여 해당 데이터를 순차적으로 검색하므로, 검색 대상 문서의 증가에 비례하여 검색에 소요되는 시간도 길어진다. 그래서 미리 검색 대상이 되는 문서 집합을 스캔하여, 고속 검색이 가능하도록 인덱스 데이터를 준비함으로써 검색 시의 성능을 향상시키는 기법이 사용된다. 사전에 인덱스 파일을 생성하는 것을 인덱싱(indexing)이라고 부른다.
- 키워드: 문서 작성자(또는 훈련된 색인자)는 텍스트의 주제를 설명하는 단어 목록을 제공하도록 요청받으며, 여기에는 이 주제를 설명하는 단어의 동의어도 포함된다. 키워드는 특히 키워드 목록에 문서 텍스트에 없는 검색어가 포함된 경우 재현율을 향상시킨다.
- 필드 제한 검색: 일부 검색 엔진은 사용자가 전체 텍스트 검색을 저장된 데이터 레코드 내의 특정 필드 (예: "제목" 또는 "저자")로 제한할 수 있다.
검색 대상 문서가 일반 텍스트 이외, 예를 들어 HTML 문서라면 태그 제거 등의 처리를 통해 텍스트를 추출할 수 있지만, 특정 제조사의 워드 프로세서 고유 형식 등 바이너리 형식의 경우, 인덱서는 직접 파일에서 텍스트를 추출할 수 없기 때문에, '''문서 필터'''를 사용하여 해당 파일에서 텍스트를 추출해야 할 필요가 있다. 문서 필터 기능은 인덱서가 내포하고 있는 경우도 있고, 애드인 등의 기능 확장을 통해 구현하는 경우도 있다.
- 대표적인 문서 필터
- *Xpdf
- **[http://www.foolabs.com/xpdf/ Xpdf]
- **Namazu에서 PDF 문서에서 텍스트를 추출하기 위해 자주 사용된다.
- *IFilter
- **[http://www.ifiltershop.com/ IFilterShop]
- **[http://www.ifilter.org/ IFilter.Org]
- **[http://www.microsoft.com/en-us/download/details.aspx?id=17062 Microsoft Office 2010 Filter Packs]
- **Index Service, Windows 데스크톱 검색의 애드인으로 각 회사에서 제공하고 있다.
- *xdoc2txt
- **[http://ebstudio.info/home/xdoc2txt.html http://ebstudio.info/home/xdoc2txt.html]
- **고속 Grep 소프트웨어 "KWIC Finder"에서 필터 부분을 추출한 것. Hyper Estraier에서는 표준 문서 필터로 사용되고 있다.
전체 검색용 인덱스에는 다양한 형식이 있지만, 가장 일반적인 것은 단어와, 단어를 포함하는 문서 파일의 ID로 구성된 가변 길이 레코드를 가진 테이블로, '''전치 파일''' (※이진 탐색을 수행하려면 단어와 문서 ID가 정렬되어 있어야 한다./inverted file}}, 전치 인덱스라고도 함)이라고 한다. 인덱싱 및 실제 검색 시에는 "이진 탐색" 등의 알고리즘을 사용하여 고속으로 검색 단어에서 문서 ID를 찾아낼 수 있다. 전치 파일의 데이터 구조나 채용하고 있는 탐색 알고리즘은 전체 검색 시스템에 따라 다르며, 이러한 차이에 따라 인덱스 크기, 검색 속도, 검색 정확도에 큰 차이가 발생할 수 있다.
단어 | 문서 ID |
---|---|
검색 | 1, 3, 4 |
데스크톱 | 2, 4, 7 |
분석 | 3, 5, 6, 7 |
형태소 | 2, 6, 7 |
검색 | 1, 6 |
전체 텍스트 | 1, 6, 7 |
{{注영어
- 개념 검색: 복합어 처리와 같은 여러 단어 개념을 기반으로 하는 검색이다. 이러한 유형의 검색은 많은 전자 증거 개시 솔루션에서 인기를 얻고 있다.
- 일치 검색: 일치 검색은 텍스트에 나타나는 모든 주요 단어와 해당 단어의 바로 앞뒤 문맥을 알파벳순으로 나열한다.
- 근접 검색: 구문 검색은 지정된 수의 단어로 구분된 두 개 이상의 단어를 포함하는 문서만 일치시킨다. 에 대한 검색은 라는 단어가 서로 2단어 이내에 나타나는 문서만 검색한다.
- 정규 표현식: 정규 표현식은 정밀하게 검색 조건을 지정하는 데 사용할 수 있는 복잡하지만 강력한 쿼리 구문을 사용한다.
- 퍼지 검색은 주어진 용어와 그 주변의 몇 가지 변형(예: 여러 변형을 임계값으로 사용하기 위해 편집 거리를 사용)과 일치하는 문서를 검색한다.
- 와일드카드 검색: 검색 쿼리에서 하나 이상의 문자를 별표와 같은 와일드카드 문자로 대체하는 검색이다. 예를 들어 검색 쿼리 에서 별표를 사용하면 텍스트에서 "sin", "son", "sun" 등을 찾을 수 있다.
리니어 검색(통칭 "바보 검색")이나 바이너리 검색(이분법), 해시법 등이 있지만, 각각 장단점이 있어 "사전 등록 어휘 수가 많아지면 수고가 늘어나 늦어진다"는 문제가 있다.
일반적인 검색 엔진에서는 더블 배열법이 사용되는 것 같지만, 더블 배열법은 주 기억 영역이 좁았던 과거 환경에 맞춰 개발된 것으로 보여 현재는 가독성이 좋지 않아 채용하는 것을 권장하지 않는다.
더블 배열법의 해석에서 그 조상인 트리플 배열법이 발견(아마도 재발견)되었지만, 발명자는 알려져 있지 않다.
트리플 배열은 사전 등록 어휘에 관계없이 가장 긴 등록 어휘의 길이 l에 비례하는 수고만 들기 때문에 간편한 알고리즘이지만, 최장 어휘 l이 늘어나면 히트하는 어휘 수가 줄어들기 때문에 도중에 리니어 검색으로 전환하면 콤팩트해진다. 또한 프로그래밍 언어의 예약어처럼 수가 제한되어 있고 빈번하게 나타나는 어휘에 대해서는 해시법을 사용하는 것이 더 간단하다.
2. 1. 비색인 기반 검색 (순차 스캔)
비색인 기반 검색은 별도의 색인 파일을 생성하지 않고, 검색 대상 문서들을 순차적으로 스캔하여 검색어와 일치하는 부분을 찾는 방식이다. 순차 스캔 검색, 순차 검색이라고도 한다. grep은 유닉스에서의 문자열 검색 명령어로, 여러 텍스트 파일의 내용을 순차적으로 스캔하여 검색 대상 문자열을 찾아낸다. 일반적으로 "grep형"이라고 불리는 검색 기법은 사전에 색인 파일(인덱스)을 생성하지 않고 파일을 순차적으로 스캔하기 때문에, 검색 대상이 증가함에 따라 검색 속도가 저하되는 특징이 있다. "grep형"은 실제로 grep 명령어를 사용한다는 의미는 아니다.2. 2. 색인 기반 검색
검색 대상 문서들을 미리 분석하여 색인(index)을 생성하고, 검색 시에는 이 색인을 참조하여 빠르게 검색 결과를 찾는 방식이다.[2] 장점: 대량의 문서에 대한 검색 속도가 빠르다. 단점: 색인 생성 시간이 필요하며, 색인 업데이트를 주기적으로 수행해야 한다.검색할 문서의 수가 잠재적으로 많거나 수행할 검색 쿼리의 양이 상당한 경우, 전체 텍스트 검색 문제는 종종 인덱싱과 검색의 두 가지 작업으로 나뉜다. 인덱싱 단계는 모든 문서의 텍스트를 스캔하고 검색어 목록(종종 색인이라고 하지만, 더 정확하게는 일람표)을 구축한다. 검색 단계에서는 특정 쿼리를 수행할 때 원본 문서의 텍스트가 아닌 색인만 참조한다.[2]
일반적으로 색인기는 검색에 유용하지 않을 정도로 일반적이고 의미가 부족한 불용어(예: "the"와 "and")를 무시한다. 일부 색인기는 또한 색인될 단어에 대해 언어별 어간 추출을 사용한다. 예를 들어, "drives", "drove", "driven"과 같은 단어는 "drive"라는 단일 개념 단어 아래의 색인에 기록된다.
검색 대상 문서 수가 방대한 경우, grep형은 검색을 수행할 때마다 개별 문서에 접근하여 해당 데이터를 순차적으로 검색하므로, 검색 대상 문서의 증가에 비례하여 검색에 소요되는 시간도 길어진다. 그래서 미리 검색 대상이 되는 문서 집합을 스캔하여, 고속 검색이 가능하도록 인덱스 데이터를 준비함으로써 검색 시의 성능을 향상시키는 기법이 사용된다. 사전에 인덱스 파일을 생성하는 것을 인덱싱(indexing)이라고 부른다.
- 키워드: 문서 작성자(또는 훈련된 색인자)는 텍스트의 주제를 설명하는 단어 목록을 제공하도록 요청받으며, 여기에는 이 주제를 설명하는 단어의 동의어도 포함된다. 키워드는 특히 키워드 목록에 문서 텍스트에 없는 검색어가 포함된 경우 재현율을 향상시킨다.
- 필드 제한 검색: 일부 검색 엔진은 사용자가 전체 텍스트 검색을 저장된 데이터 레코드 내의 특정 필드 (예: "제목" 또는 "저자")로 제한할 수 있다.
검색 대상 문서가 일반 텍스트 이외, 예를 들어 HTML 문서라면 태그 제거 등의 처리를 통해 텍스트를 추출할 수 있지만, 특정 제조사의 워드 프로세서 고유 형식 등 바이너리 형식의 경우, 인덱서는 직접 파일에서 텍스트를 추출할 수 없기 때문에, '''문서 필터'''를 사용하여 해당 파일에서 텍스트를 추출해야 할 필요가 있다. 문서 필터 기능은 인덱서가 내포하고 있는 경우도 있고, 애드인 등의 기능 확장을 통해 구현하는 경우도 있다.
- 대표적인 문서 필터
- *Xpdf
- **[http://www.foolabs.com/xpdf/ Xpdf]
- **Namazu에서 PDF 문서에서 텍스트를 추출하기 위해 자주 사용된다.
- *IFilter
- **[http://www.ifiltershop.com/ IFilterShop]
- **[http://www.ifilter.org/ IFilter.Org]
- **[http://www.microsoft.com/en-us/download/details.aspx?id=17062 Microsoft Office 2010 Filter Packs]
- **Index Service, Windows 데스크톱 검색의 애드인으로 각 회사에서 제공하고 있다.
- *xdoc2txt
- **[http://ebstudio.info/home/xdoc2txt.html http://ebstudio.info/home/xdoc2txt.html]
- **고속 Grep 소프트웨어 "KWIC Finder"에서 필터 부분을 추출한 것. Hyper Estraier에서는 표준 문서 필터로 사용되고 있다.
전체 검색용 인덱스에는 다양한 형식이 있지만, 가장 일반적인 것은 단어와, 단어를 포함하는 문서 파일의 ID로 구성된 가변 길이 레코드를 가진 테이블로, '''전치 파일''' (※이진 탐색을 수행하려면 단어와 문서 ID가 정렬되어 있어야 한다./inverted file}}, 전치 인덱스라고도 함)이라고 한다. 인덱싱 및 실제 검색 시에는 "이진 탐색" 등의 알고리즘을 사용하여 고속으로 검색 단어에서 문서 ID를 찾아낼 수 있다. 전치 파일의 데이터 구조나 채용하고 있는 탐색 알고리즘은 전체 검색 시스템에 따라 다르며, 이러한 차이에 따라 인덱스 크기, 검색 속도, 검색 정확도에 큰 차이가 발생할 수 있다.
단어 | 문서 ID |
---|---|
검색 | 1, 3, 4 |
데스크톱 | 2, 4, 7 |
분석 | 3, 5, 6, 7 |
형태소 | 2, 6, 7 |
검색 | 1, 6 |
전체 텍스트 | 1, 6, 7 |
{{注영어
- 개념 검색: 복합어 처리와 같은 여러 단어 개념을 기반으로 하는 검색이다. 이러한 유형의 검색은 많은 전자 증거 개시 솔루션에서 인기를 얻고 있다.
- 일치 검색: 일치 검색은 텍스트에 나타나는 모든 주요 단어와 해당 단어의 바로 앞뒤 문맥을 알파벳순으로 나열한다.
- 근접 검색: 구문 검색은 지정된 수의 단어로 구분된 두 개 이상의 단어를 포함하는 문서만 일치시킨다. 에 대한 검색은 라는 단어가 서로 2단어 이내에 나타나는 문서만 검색한다.
- 정규 표현식: 정규 표현식은 정밀하게 검색 조건을 지정하는 데 사용할 수 있는 복잡하지만 강력한 쿼리 구문을 사용한다.
- 퍼지 검색은 주어진 용어와 그 주변의 몇 가지 변형(예: 여러 변형을 임계값으로 사용하기 위해 편집 거리를 사용)과 일치하는 문서를 검색한다.
- 와일드카드 검색: 검색 쿼리에서 하나 이상의 문자를 별표와 같은 와일드카드 문자로 대체하는 검색이다. 예를 들어 검색 쿼리 에서 별표를 사용하면 텍스트에서 "sin", "son", "sun" 등을 찾을 수 있다.
리니어 검색(통칭 "바보 검색")이나 바이너리 검색(이분법), 해시법 등이 있지만, 각각 장단점이 있어 "사전 등록 어휘 수가 많아지면 수고가 늘어나 늦어진다"는 문제가 있다.
일반적인 검색 엔진에서는 더블 배열법이 사용되는 것 같지만, 더블 배열법은 주 기억 영역이 좁았던 과거 환경에 맞춰 개발된 것으로 보여 현재는 가독성이 좋지 않아 채용하는 것을 권장하지 않는다.
더블 배열법의 해석에서 그 조상인 트리플 배열법이 발견(아마도 재발견)되었지만, 발명자는 알려져 있지 않다.
트리플 배열은 사전 등록 어휘에 관계없이 가장 긴 등록 어휘의 길이 l에 비례하는 수고만 들기 때문에 간편한 알고리즘이지만, 최장 어휘 l이 늘어나면 히트하는 어휘 수가 줄어들기 때문에 도중에 리니어 검색으로 전환하면 콤팩트해진다. 또한 프로그래밍 언어의 예약어처럼 수가 제한되어 있고 빈번하게 나타나는 어휘에 대해서는 해시법을 사용하는 것이 더 간단하다.
3. 검색 성능 평가
3. 1. 정밀도와 재현율
전문 검색 시스템의 성능 평가 지표로 "재현율"과 "정밀도"가 사용된다. 재현율은 검색에서 반환된 관련 결과의 양을 측정하며, 반환된 관련 결과의 수와 모든 관련 결과의 수의 비율이다.[3] 정밀도는 반환된 결과의 품질을 측정하며, 반환된 관련 결과의 수와 반환된 총 결과의 수의 비율이다.[3]낮은 정밀도, 낮은 재현율 검색을 나타내는 오른쪽 다이어그램에서 빨간색 점은 관련 없는 결과, 녹색 점은 관련 결과를 나타낸다. 관련성은 검색 결과가 내부 원의 중심에 얼마나 가까운지로 표시된다.[3] 예시에서는 3개의 가능한 관련 결과 중 1개의 관련 결과만 반환되었으므로, 재현율은 1/3 (33%)이다. 또한, 반환된 4개의 결과 중 1개만 관련되었으므로 정밀도는 1/4 (25%)이다.[3]
자연어의 모호성 때문에, 전문 검색 시스템은 정밀도를 높이기 위해 필터링을, 재현율을 높이기 위해 어간 추출과 같은 옵션을 포함한다.[4] 통제 어휘 검색은 모호성을 제거하는 방식으로 문서를 태깅하여 낮은 정밀도 문제를 완화하는 데 도움을 준다.[4] 정밀도와 재현율은 상호 보완적인 관계(trade-off)에 있다. 즉, 정밀도를 높이면 재현율이 낮아지고, 재현율을 높이면 정밀도가 낮아지는 경향이 있다.[4]
3. 2. 랭킹(Ranking)
검색 결과를 사용자의 요구에 더 적합한 순서대로 정렬하는 것을 랭킹이라고 한다.[6] 랭킹 알고리즘은 검색어의 출현 빈도, 문서 내 위치, 문서의 중요도(페이지랭크) 등 다양한 요소를 고려하여 결정된다.일반적인 검색 엔진에서는 독자적인 랭크 부여 규칙도 적용하여 "중요도" 등으로 부르는 경우도 있다.[6] 랭크 부여의 기본적인 생각은 "사용자에게 중요하다고 생각되는 문서를 상위에 표시하는 것"이며,[6] 다음과 같은 수법이 많이 사용된다.[6]
- 문서 내 검색 단어 출현 빈도[6]
- HTML 태그 분석[6]
- :
태그나태그를 중시한다.[6] - tf-idf[6]
- : TF는 단어의 출현 빈도, IDF는 전체 문서 중에서 단어가 일부 문서에 집중되어 있는 정도를 나타내며, 이 둘을 곱하여 랭크를 부여한다.[6]
- 페이지랭크[6]
- : "중요도가 높은 페이지에서 링크된 페이지는 중요하다"라는 원리에 기반하여 랭크를 부여한다.[6] 구글에서 채용하고 있다.[6]
구글에서 개발한 페이지랭크 알고리즘은 다른 웹 페이지에서 링크된 문서에 더 큰 중요성을 부여한다.[6]
4. 주요 응용 분야
WWW 검색 서비스는 검색 서비스 중에서는 초대규모의 기능이 요구되는 분야로, 치열한 경쟁이 이루어져 왔지만, 2013년 현재는 구글(Google) 또는 빙(Microsoft Bing) 중 하나로 집약되어 가는 추세이다. 웹 초창기부터 이루어진 서비스 중 하나로, 기술의 진보도 눈부시다. 웹 검색 서비스는 가장 대표적인 전문 검색 응용 분야이다. 구글, 빙 등 주요 검색 엔진은 대규모 웹 문서를 대상으로 빠르고 정확한 검색 서비스를 제공한다.
기업용 사내 검색 서비스는 사내 파일 서버의 문서 자산을 고속으로 전체 텍스트 검색하는 시스템이다. Word나 Excel과 같은 오피스 스위트에서 이메일, 데이터베이스 등 다양한 파일 형식을 지원하며, 기업의 특성에 따라 다양한 검색 결과를 반환한다. 최근 전자 데이터의 기업 자산의 중요성이 증가하면서 매우 발전해 온 분야이다. 파일 서버 내의 문서 자산을 빠르게 전문 검색하는 시스템이다. Word, Excel 등 오피스 스위트 파일, 이메일, 데이터베이스를 포함한 다양한 파일 형식을 지원한다. 기업 특성에 따라 다양한 검색 결과를 제공하며, 기업 내 분산된 문서를 통합 검색하여 지식 자산 활용도와 업무 효율성을 높인다.
데스크톱 검색은 개인의 로컬 파일을 검색하기 위한 응용 소프트웨어이다. Word, Excel, PDF 등 다양한 파일 형식을 지원한다. 또한, 이미지 데이터 등 개인 소유의 멀티미디어 데이터 검색에 특화된 것도 있으며, 속도와 간편함이 요구된다. 데스크톱 검색은 개인의 로컬 파일을 검색하기 위한 응용 소프트웨어이다. Word, Excel, PDF 등 다양한 파일 형식을 지원한다. 또한, 이미지 데이터 등 개인 소유의 멀티미디어 데이터 검색에 특화된 것도 있으며, 속도와 간편함이 요구된다.
전자 도서관, 법률 정보 검색, 특허 검색, 뉴스 검색 등 다양한 분야에서 전문 검색이 활용된다.
4. 1. 검색 엔진
웹 검색 서비스는 가장 대표적인 전문 검색 응용 분야이다. 구글, 빙 등 주요 검색 엔진은 대규모 웹 문서를 대상으로 빠르고 정확한 검색 서비스를 제공한다.4. 2. 기업 내 문서 검색 (엔터프라이즈 검색)
파일 서버 내의 문서 자산을 빠르게 전문 검색하는 시스템이다. Word, Excel 등 오피스 스위트 파일, 이메일, 데이터베이스를 포함한 다양한 파일 형식을 지원한다. 기업 특성에 따라 다양한 검색 결과를 제공하며, 기업 내 분산된 문서를 통합 검색하여 지식 자산 활용도와 업무 효율성을 높인다.4. 3. 데스크톱 검색
데스크톱 검색은 개인의 로컬 파일을 검색하기 위한 응용 소프트웨어이다. Word, Excel, PDF 등 다양한 파일 형식을 지원한다. 또한, 이미지 데이터 등 개인 소유의 멀티미디어 데이터 검색에 특화된 것도 있으며, 속도와 간편함이 요구된다.4. 4. 기타 응용 분야
전자 도서관, 법률 정보 검색, 특허 검색, 뉴스 검색 등 다양한 분야에서 전문 검색이 활용된다.5. 소프트웨어
아파치 루씬은 자바 기반의 전문 검색 시스템으로, 클래스 라이브러리 형태로 제공된다. 아파치 솔라는 루씬을 이용한 전문 검색 서버이다. 이들은 IBM WebSphere Commerce, Salesforce, Microsoft Azure, SAP Hybris, 라쿠텐 등에서 사용되고 있다. 대규모 인덱스 생성이 가능하며, Zookeeper를 사용하여 스케일링 및 가동률, 장애 대응성을 높일 수 있다.
Elasticsearch는 루씬 기반으로 개발된 오픈 소스 검색 엔진이다.
PostgreSQL은 자체적으로 전문 검색 기능을 내장하고 있다.
HP 오토노미는 Meaning-Based Computing (MBC)을 제창하고 있으며, 그 핵심이 되는 코어 기술인 Autonomy IDOL (Intelligent Data Operating Layer)을 제공한다. SAP HANA는 인메모리 데이터베이스 관리 시스템으로, 검색 기능을 제공한다.[7] FAST ESP는 검색 성능과 검색 대상 데이터량 모두 확장성을 가지며, 초대규모 시스템까지 대응 가능하다. 형태소 분석과 N-gram을 하이브리드로 사용 가능하다. Oracle Secure Enterprise Search는 N-gram 기반 (V-gram)이며, 로그인한 사용자가 참조 가능한 결과만 표시하는 보안 검색이 특징이다.
5. 1. 자유 및 오픈 소스 소프트웨어
아파치 루씬은 자바 기반의 전문 검색 시스템으로, 클래스 라이브러리 형태로 제공된다. 아파치 솔라는 루씬을 이용한 전문 검색 서버이다. 이들은 IBM WebSphere Commerce, Salesforce, Microsoft Azure, SAP Hybris, 라쿠텐 등에서 사용되고 있다. 대규모 인덱스 생성이 가능하며, Zookeeper를 사용하여 스케일링 및 가동률, 장애 대응성을 높일 수 있다.Elasticsearch는 루씬 기반으로 개발된 오픈 소스 검색 엔진이다.
PostgreSQL은 자체적으로 전문 검색 기능을 내장하고 있다.
5. 2. 상용 소프트웨어
HP 오토노미는 Meaning-Based Computing (MBC)을 제창하고 있으며, 그 핵심이 되는 코어 기술인 Autonomy IDOL (Intelligent Data Operating Layer)을 제공한다. SAP HANA는 인메모리 데이터베이스 관리 시스템으로, 검색 기능을 제공한다.[7] FAST ESP는 검색 성능과 검색 대상 데이터량 모두 확장성을 가지며, 초대규모 시스템까지 대응 가능하다. 형태소 분석과 N-gram을 하이브리드로 사용 가능하다. Oracle Secure Enterprise Search는 N-gram 기반 (V-gram)이며, 로그인한 사용자가 참조 가능한 결과만 표시하는 보안 검색이 특징이다.6. 한국 전문 검색의 발전과 과제
6. 1. 과제
참조
[1]
문서
[2]
웹사이트
Capabilities of Full Text Search System
http://www.lucidimag[...]
[3]
서적
Pro Full-Text Search in SQL Server 2008
Apress Publishing Company
[4]
간행물
Search and ranking algorithms for locating resources on the World Wide Web
12th International Conference on Data Engineering (ICDE'96)
[5]
문서
Experimental Comparison of Schemes for Interpreting Boolean Queries
http://eprints.cs.vt[...]
[6]
특허
Method for node ranking in a linked database
[7]
웹사이트
SAP Adds HANA-Based Software Packages to IoT Portfolio | MarTech Advisor
https://www.martecha[...]
[8]
링크
http://desktop.googl[...]
[9]
문서
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com