맨위로가기

아파치 루씬

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

아파치 루씬은 1999년 더그 커팅이 개발한 오픈 소스 전문 검색 라이브러리이다. 텍스트 색인 및 검색 기능을 제공하며, 웹 검색 엔진 및 단일 사이트 검색 구현에 유용하다. 편집 거리를 기반으로 한 퍼지 검색 기능과 추천 시스템 구현에도 사용된다. 루씬은 다양한 파일 형식의 텍스트 정보를 색인할 수 있는 유연성을 제공하며, 아파치 솔라, 너치, 엘라스틱서치 등 다양한 프로젝트의 기반이 된다. 트위터에서 실시간 검색을 위해 루씬을 사용하고 있다.

더 읽어볼만한 페이지

  • 자유 검색 엔진 소프트웨어 - 아파치 너치
    아파치 너치는 자바 기반의 오픈 소스 웹 크롤러 및 검색 엔진 프레임워크이며, 모듈식 아키텍처를 통해 플러그인 개발을 지원하고, 2010년부터 아파치 소프트웨어 재단의 독립적인 최상위 프로젝트로 운영된다.
  • 자유 검색 엔진 소프트웨어 - YaCy
    YaCy는 분산형 검색 엔진으로, 웹 페이지를 크롤링하고 색인하여 검색 결과를 제공하며, 개인 정보 보호, 검열 회피 등의 장점을 갖지만 NAT 통과 문제와 검색 속도 저하 등의 문제점도 존재한다.
  • 검색 엔진 소프트웨어 - 증분 검색
    증분 검색은 사용자가 검색어를 입력하는 즉시 결과를 보여주는 사용자 인터페이스 방법으로, 자동 완성, 입력 중 검색, 타입어헤드 검색 등으로 불리며 사용자의 노력을 줄여준다.
  • 검색 엔진 소프트웨어 - 웹 크롤러
    웹 크롤러는 웹 스파이더, 앤트 등으로 불리며 웹 페이지를 체계적으로 탐색하는 프로그램으로, 검색 엔진 인덱싱 및 데이터 수집 등에 사용되며 웹 사이트 성능에 영향을 미치지 않도록 정책을 고려하고 기술적 요소들을 포함한다.
  • 자바 라이브러리 - 구글 구아바
    구글 구아바는 구글에서 개발한 오픈 소스 자바 라이브러리로, 자바 컬렉션 프레임워크 확장, 캐싱, I/O, 문자열 처리 등 다양한 유틸리티 기능 제공, 함수형 프로그래밍 스타일 컬렉션 적용을 통해 자바 개발 생산성 향상에 기여한다.
  • 자바 라이브러리 - 아파치 POI
    아파치 POI는 자바 라이브러리로, 마이크로소프트 오피스 파일 형식을 읽고 쓰는 기능을 제공하며 엑셀, 워드, 파워포인트 등 다양한 오피스 파일 포맷을 지원하고 데이터 분석 및 보고서 작성에 활용된다.
아파치 루씬 - [IT 관련 정보]에 관한 문서
기본 정보
아파치 루씬 로고
아파치 루씬 로고
개발자아파치 소프트웨어 재단
최초 출시1999년
최신 버전10.1.0
최신 버전 출시일2024년 12월 20일
프로그래밍 언어자바
운영체제크로스 플랫폼
종류검색 및 색인
라이선스아파치 라이선스 2.0
웹사이트아파치 루씬 공식 웹사이트

2. 역사

더그 커팅은 1999년에 아파치 루씬을 개발하였다.[26] 루씬은 그의 다섯 번째 검색 엔진이었다.[6] 그는 이전에 제록스 PARC에서 두 개, 애플에서 하나, 그리고 익사이트에서 네 번째 검색 엔진을 개발했다.[7] 처음에는 SourceForge 웹 사이트에서 다운로드할 수 있었다. 2001년 9월, 아파치 소프트웨어 재단자카르타 프로젝트에 합류했고, 2005년 2월에 자체 최상위 아파치 프로젝트가 되었다. 루씬이라는 이름은 더그 커팅의 아내의 중간 이름이자 그의 외할머니의 이름에서 유래했다.[27]

2010년 3월, 아파치 솔라 검색 서버가 루씬의 하위 프로젝트로 합류하여 개발자 커뮤니티가 통합되었다. 2021년 3월, 루씬은 로고를 변경했으며, 아파치 솔라는 다시 루씬에서 독립된 최상위 아파치 프로젝트가 되었다.

아파치 루씬은 이전에 Lucene.NET, 아파치 머하웃, 티카, 너치와 같은 여러 하위 프로젝트를 포함했으나, 현재는 모두 독립적인 최상위 프로젝트이다.

2. 1. 주요 버전 릴리스

주요 버전 릴리스 날짜[23]
버전날짜
0.012000년 3월 30일
1.02000년 10월 4일
1.3 final2003년 12월 26일
1.4 final2004년 7월 1일
1.9 final2006년 2월 27일
2.0.02006년 5월 26일
2.1.02007년 2월 17일
2.2.02007년 6월 19일
2.3.02008년 1월 23일
2.4.02008년 10월 8일
2.9.02009년 9월 25일
3.0.02009년 11월 25일
4.0.02012년 10월 12일
5.0.02015년 2월 20일
6.0.02016년 4월 8일
6.6.02017년 6월 6일


3. 주요 기능

전문 검색 색인 및 검색 기능을 필요로 하는 모든 응용 프로그램에 적합하지만, 루씬은 웹 검색 엔진 및 로컬 단일 사이트 검색 구현에 유용하다는 점으로 널리 알려져 있다.[28][29]

루씬은 편집 거리를 기반으로 한 퍼지 검색을 수행하는 기능을 포함한다.[30][12]

루씬은 또한 추천 시스템을 구현하는 데 사용되어 왔다.[31][13] 예를 들어, 루씬의 'MoreLikeThis' 클래스는 유사한 문서에 대한 추천을 생성할 수 있다.

루씬 논리 아키텍처의 핵심은 텍스트를 가지고 있는 필드를 포함하는 문서의 개념이다. 이러한 유연성 덕분에 루씬의 API파일 형식과 독립적이다. PDF, HTML, 마이크로소프트 워드, 마인드맵오픈도큐먼트 뿐만 아니라 많은 다른 정보(이미지 제외)의 텍스트 정보는 추출할 수 있는 한 모두 색인할 수 있다.[32]

4. 루씬 기반 프로젝트

아파치 루씬은 자체적으로 색인 및 검색 기능을 제공하는 라이브러리이지만, 웹 크롤러나 HTML 구문 분석 기능은 포함하지 않는다. 하지만 다양한 프로젝트가 루씬의 기능을 확장한다.


  • 아파치 너치 - 웹 크롤러 및 HTML 구문 분석 기능을 제공한다.
  • 아파치 솔라 - 엔터프라이즈 검색 서버이다.
  • Compass - 엘라스틱서치의 전신이다.[33]
  • CrateDB - 오픈 소스, 루씬 기반의 분산 SQL 데이터베이스이다.[34]
  • DocFetcher - 크로스 플랫폼 데스크톱 환경 검색 애플리케이션이다.
  • 엘라스틱서치 - 2010년에 만들어진 엔터프라이즈 검색 서버이다.[35]
  • Kinosearch - C[37]로 작성된 검색 엔진이며, 루씬의 일부 기능을 포팅했다.[36] Socialtext의 위키[38], 모조모조 위키 엔진[39], Human Metabolome Database(HMDB)[40]와 Toxin and Toxin-Target Database(T3DB)[41]에서 사용된다.
  • MongoDB Atlas Search - MongoDB 및 아파치 루씬을 기반으로 하는 클라우드 네이티브 엔터프라이즈 검색 애플리케이션이다.
  • OpenSearch - Elasticsearch 7의 포크를 기반으로 하는 오픈 소스 엔터프라이즈 검색 서버이다.
  • Swiftype - 루씬 기반의 엔터프라이즈 검색 스타트업이다.

5. 루씬 사용자

트위터는 실시간 검색을 위해 루씬을 사용하고 있다.[43] 확장 기능이 포함되지 않은 루씬 사용자 목록은 루씬의 "Powered By" 페이지에서 확인할 수 있다.[42]

참조

[1] 웹사이트 Welcome to Apache Lucene https://lucene.apach[...] 2020-02-12
[2] 간행물 Advances in Information Retrieval Springer International Publishing 2020
[3] 간행물 Advances in Information Retrieval Springer International Publishing 2020
[4] 논문 Lucene4IR: Developing Information Retrieval Evaluation Resources using Lucene https://dl.acm.org/d[...] 2017-02-14
[5] 웹사이트 LuceneImplementations http://wiki.apache.o[...] 2015-09-23
[6] 웹사이트 Better Search with Apache Lucene and Solr http://trijug.org/do[...] 2007-11-19
[7] 웹사이트 I wrote a couple of search engines at Xerox PARC, then V-Twin at Apple, then re-wrote Excite's search, then Lucene. So, Lucene might be considered V-Twin 3.0? Almost 25 years later, V-Twin still lives on as Mac OS X Search Kit! https://twitter.com/[...] 2019-06-07
[8] 서적 Web Content Management O'Reilly
[9] 웹사이트 Apache Lucene - Welcome to Apache Lucene https://lucene.apach[...] 2016-02-04
[10] 서적 Lucene in Action, Second Edition https://archive.org/[...] Manning
[11] 웹사이트 GNU/Linux Semantic Storage System http://www.glscube.o[...]
[12] 웹사이트 Apache Lucene - Query Parser Syntax https://lucene.apach[...]
[13] 문서 J. Beel, S. Langer, and B. Gipp, “The Architecture and Datasets of Docear’s Research Paper Recommender System,” in Proceedings of the 3rd International Workshop on Mining Scientific Publications (WOSP 2014) at the ACM/IEEE Joint Conference on Digital Libraries (JCDL 2014), London, UK, 2014
[14] 문서 M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, [[Volker Markl|V. Markl]], and B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf "Evaluating Link-based Recommendations for Wikipedia" in Proceedings of the 16th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL), New York, NY, USA, 2016, pp. 191-200.
[15] 뉴스 11 cutting-edge databases worth exploring now http://www.infoworld[...] InfoWorld 2015-09-21
[16] 웹사이트 Elasticsearch: RESTful, Distributed Search & Analytics - Elastic https://www.elastic.[...] 2015-09-23
[17] 웹사이트 The Future of Compass & Elasticsearch http://thedudeabides[...] 2015-10-14
[18] 뉴스 Socialtext Updates Search, Goes Kino http://www.cmswire.c[...] CMS Wire 2011-05-31
[19] 웹사이트 KinoSearch - Search engine library. - metacpan.org http://p3rl.org/Kino[...] 2015-09-23
[20] 서적 The Definitive Guide to Catalyst https://archive.org/[...] Apress
[21] 논문 HMDB: a knowledgebase for the human metabolome 2009-01
[22] 논문 T3DB: a comprehensively annotated database of common toxins and their targets 2010-01
[23] 웹사이트 Lucene Change Log https://lucene.apach[...] 2021-11-16
[24] 웹인용 Welcome to Apache Lucene https://lucene.apach[...] 2020-02-12
[25] 웹인용 LuceneImplementations http://wiki.apache.o[...] apache.org 2015-09-23
[26] 웹인용 Better Search with Apache Lucene and Solr http://trijug.org/do[...] 2007-11-19
[27] 서적 Web Content Management O'Reilly
[28] 서적 Lucene in Action, Second Edition https://archive.org/[...] Manning
[29] 웹인용 GNU/Linux Semantic Storage System http://www.glscube.o[...]
[30] 웹인용 Apache Lucene - Query Parser Syntax https://lucene.apach[...]
[31] 문서 J. Beel, S. Langer, and B. Gipp, “The Architecture and Datasets of Docear’s Research Paper Recommender System,” in Proceedings of the 3rd International Workshop on Mining Scientific Publications (WOSP 2014) at the ACM/IEEE Joint Conference on Digital Libraries (JCDL 2014), London, UK, 2014
[32] 서적 Machine Learning and Data Mining in Pattern Recognition: 5th International Conference Springer
[33] 웹인용 The Future of Compass & Elasticsearch http://thedudeabides[...] 2015-10-14
[34] 뉴스 11 cutting-edge databases worth exploring now http://www.infoworld[...] InfoWorld 2015-09-21
[35] 웹인용 Elasticsearch: RESTful, Distributed Search & Analytics - Elastic https://www.elastic.[...] 2015-09-23
[36] 웹인용 KinoSearch - Search engine library. - metacpan.org http://p3rl.org/Kino[...] 2015-09-23
[37] 뉴스 Socialtext Updates Search, Goes Kino http://www.cmswire.c[...] CMS Wire 2011-05-31
[38] 뉴스 Socialtext Updates Search, Goes Kino http://www.cmswire.c[...] CMS Wire 2011-05-31
[39] 서적 The Definitive Guide to Catalyst https://archive.org/[...] Apress
[40] 저널 HMDB: a knowledgebase for the human metabolome 2009-01
[41] 저널 T3DB: a comprehensively annotated database of common toxins and their targets 2010-01
[42] 웹인용 PoweredBy http://wiki.apache.o[...] 2015-09-23
[43] 웹인용 Twitter Quietly Launched A New Search Backend Weeks Ago https://techcrunch.c[...] AOL 2015-09-23



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com