맨위로가기

아파치 너치

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

아파치 너치는 자바 프로그래밍 언어로 개발된 오픈 소스 웹 크롤러 및 검색 엔진 프레임워크이다. 모듈식 아키텍처를 통해 미디어 유형 파싱, 데이터 검색, 쿼리 및 클러스터링을 위한 플러그인 개발을 지원하며, 더그 커팅과 마이크 카페렐라에 의해 시작되었다. 2005년 아파치 인큐베이터에 합류하여 루씬의 하위 프로젝트로 시작되었고, 2010년부터는 아파치 소프트웨어 재단의 독립적인 최상위 프로젝트로 운영되고 있다. 1.x 버전과 2.x 버전으로 나뉘어 개발되었으며, 2014년 커먼 크롤 프로젝트가 대규모 웹 크롤링을 위해 너치를 채택했다.

더 읽어볼만한 페이지

  • 자유 검색 엔진 소프트웨어 - 아파치 루씬
    아파치 루씬은 더그 커팅이 개발한 오픈 소스 전문 검색 라이브러리이며, 텍스트 색인 및 검색 기능을 제공하여 웹 검색 엔진, 퍼지 검색, 추천 시스템 구현 등에 사용된다.
  • 자유 검색 엔진 소프트웨어 - YaCy
    YaCy는 분산형 검색 엔진으로, 웹 페이지를 크롤링하고 색인하여 검색 결과를 제공하며, 개인 정보 보호, 검열 회피 등의 장점을 갖지만 NAT 통과 문제와 검색 속도 저하 등의 문제점도 존재한다.
  • 웹 크롤러 - Wget
    Wget은 HTTP, HTTPS, FTP 프로토콜을 지원하여 네트워크를 통해 파일을 다운로드하는 자유 소프트웨어로, 명령 줄 인터페이스를 사용하며, 불안정한 네트워크 환경에서도 안정적인 다운로드와 웹사이트 미러링 기능을 제공한다.
  • 웹 크롤러 - Libwww
    Libwww는 팀 버너스리와 CERN 연구진이 개발하여 퍼블릭 도메인으로 공개된 월드 와이드 웹 라이브러리로서, 다양한 프로토콜 지원, 보안 기능, 문서 형식 처리 기능 등을 제공했으나 이식성과 스레드 안전성 부족으로 비판받았다.
  • 검색 엔진 - 페이지랭크
    페이지랭크는 래리 페이지와 세르게이 브린이 개발한 알고리즘으로, 하이퍼링크로 연결된 문서 집합에서 웹 페이지의 상대적 중요도를 측정하며, 링크를 투표로 간주하여 페이지 순위를 재귀적으로 결정하고, 구글 검색 엔진의 초기 핵심 알고리즘으로 활용되었으며, 다양한 분야에서 활용된다.
  • 검색 엔진 - 울프럼 알파
    울프럼 알파는 자연어 처리 기반 지식 엔진으로, 텍스트 입력을 통해 질문에 대한 답변과 복잡한 계산, 통계 분석, 금융 계산 등의 연산 결과를 제공하고 시각화한다.
아파치 너치 - [IT 관련 정보]에 관한 문서
기본 정보
너치 웹 인터페이스 검색
너치 웹 인터페이스 검색
개발자아파치 소프트웨어 재단
최초 개발자더그 커팅, 마이크 카페렐라
라이선스아파치 라이선스 2.0
웹사이트아파치 너치 공식 웹사이트
기술 정보
최신 안정화 버전1.x: 1.20 (2024년 4월 24일)
2.x: 2.4 (2019년 10월 11일)
저장소Nutch Github Repository
프로그래밍 언어자바
운영체제크로스 플랫폼
종류웹 크롤러

2. 특징

너치는 자바 프로그래밍 언어로 완전히 코딩되었지만, 데이터는 언어 독립적인 형식으로 작성된다. 너치는 개발자가 미디어 유형 파싱, 데이터 검색, 쿼리 및 클러스터링을 위한 플러그인을 만들 수 있도록 하는 매우 모듈식 아키텍처를 가지고 있다.

페처("로봇" 또는 "웹 크롤러")는 이 프로젝트를 위해 처음부터 작성되었다.

너치 로봇 마스코트

3. 역사

더그 커팅과 마이크 카페렐라가 루씬과 하둡을 개발하면서 너치를 시작했다.

2003년 6월, 1억 페이지 규모의 시연 시스템 개발에 성공했다. 너치 프로젝트는 크롤링 및 인덱싱 작업의 다중 머신 처리를 위해 맵리듀스 기능과 분산 파일 시스템을 구현했고, 이 기능들은 하둡이라는 자체 하위 프로젝트로 분리되었다.

2005년 1월, 너치는 아파치 인큐베이터에 합류하여 6월에는 루씬의 하위 프로젝트로 졸업했다. 2010년 4월부터 아파치 소프트웨어 재단의 독립적인 최상위 프로젝트로 운영되고 있다.[2]

2014년 2월, 커먼 크롤 프로젝트는 대규모 웹 크롤링을 위해 너치를 채택했다.[3] 과거 너치는 글로벌 대규모 웹 검색 엔진 출시를 목표로 했으나, 현재는 그렇지 않다.

3. 1. 릴리스 역사

너치는 1.x 버전과 2.x 버전으로 나뉘어 개발되었다. 1.x 버전은 주로 버그 수정 및 성능 개선에 초점을 맞추었고, 2.x 버전은 아파치 고라(Apache Gora)를 통한 스토리지 추상화에 중점을 두었다.

1.x 브랜치2.x 브랜치릴리스 날짜설명
1.12010-06-06아파치 하둡, 아파치 솔라, 아파치 티카 등 의존 라이브러리 업그레이드 및 Fetcher2 속도 향상 등 다양한 버그 수정.
1.22010-10-24parse-html 파서 재추가, 필드별 인덱싱 구성, 파서 시간 초과 구현, 분산 검색 및 문서 필드별 XML 형식 문제 수정.
1.32011-06-07향상된 RSS 파싱 지원, 아파치 티카와의 통합 강화, 외부 파싱 지원, 언어 식별 개선, 소스 릴리스 tarball 크기 축소 (약 2MB).
1.42011-11-26파서의 여러 MIME 유형 지원, 구성 가능한 Fetcher 큐 깊이, Fetcher 속도 개선, 아파치 티카 통합 강화, 아파치 솔라 인덱싱에서 HTTP 인증 지원.
1.52012-06-07아파치 티카 1.1 및 아파치 하둡 1.0.0 업그레이드, LinkRank 및 WebGraph 요소 개선, 블랙리스트, 필터링 및 파싱 관련 플러그인 추가.
2.02012-07-07아파치 고라를 통한 스토리지 추상화 (아파치 아큐뮬로, 아파치 아브로, 아파치 카산드라, 아파치 HBase, HDFS, 메모리 내 데이터 저장소, 고급 SQL 저장소 등) 기반 대규모 크롤링에 중점.
1.5.12012-07-101.5.X 버전의 유지 관리 릴리스.
2.12012-10-05단순화된 너치 배포, 개선된 아파치 솔라 구성 속성, 다양한 아파치 고라 종속성 업그레이드, 엘라스틱 서치 인덱스 구축 옵션 도입.
1.62012-12-06HostNormalizer, MIME 유형별 fetchInterval 동적 설정, URL 정규화, robots noIndex 문서 삭제, 아파치 티카 1.2 및 Automaton 1.11-8 업그레이드.
2.22013-06-08크롤러-커먼즈(Crawler-Commons) 활용(robots.txt 구문 분석 개선), 아파치 하둡 1.1.1, 아파치 고라 0.3, 아파치 티카 1.2, 오토마톤 1.11-8 라이브러리 업그레이드.
1.72013-06-24플러그형 인덱싱 아키텍처 (아파치 솔라, 엘라스틱 서치 지원), Robots.txt 구문 분석은 크롤러-커먼즈에 위임, 아파치 하둡 1.2.0, 아파치 티카 1.3 업그레이드.
2.2.12013-07-02아파치 하둡 1.2.0 및 아파치 티카 1.3으로 라이브러리 업그레이드, NUTCH-1591 버그 수정.
1.82014-03-17크롤러 커먼즈 0.3 및 아파치 티카 1.5 라이브러리 업그레이드.
2.32015-01-22자체 포함된 아파치 위켓 기반 웹 애플리케이션 제공, 아파치 고라의 SQL 백엔드 사용 중단.[4]
1.102015-05-06아파치 티카 1.6 라이브러리 업그레이드.[5]
1.112015-12-07아파치 하둡 2.X, 아파치 티카 1.11 라이브러리 업그레이드.[6]
2.3.12016-01-21약 40개의 문제 포함된 버그 수정 릴리스.
1.122016-06-18
1.132017-04-02
1.142017-12-23
1.152018-08-09
1.162019-10-11
2.42019-10-112.X 시리즈의 마지막 릴리스 예상.[7]
1.172020-07-02
1.182021-01-24
1.192022-08-22
1.202024-04-09


4. 확장성

IBM 연구소는 상업적 확장(CSO) 프로젝트의 일환으로 너치/루씬의 성능[8]을 연구했다.[9] 연구 결과에 따르면 너치/루씬과 같은 수평 확장 시스템은 블레이드 클러스터에서 POWER5와 같은 수직 확장 컴퓨터에서는 달성할 수 없는 높은 성능을 달성할 수 있다.

TREC 등에서 사용된 ClueWeb09 데이터세트는 너치를 사용하여 수집되었으며, 초당 평균 755.31개의 문서를 처리했다.[10]

5. 관련 프로젝트

하둡은 대규모 클러스터에서 실행되는 분산 애플리케이션을 지원하는 자바 프레임워크이다.

6. 너치 기반 검색 엔진


  • 커먼 크롤 – 2014년부터 너치를 사용하여 공개적으로 인터넷 전체를 크롤링한다.[3]
  • 크리에이티브 커먼즈 검색 – 2004년부터 2006년까지 너치를 구현하여 사용했다.[11][12][13]
  • 디스커버에드 – 오픈 교육 자원 검색 프로토타입, 크리에이티브 커먼즈에서 개발.
  • 크루글 – 코드, 아카이브 및 기술적으로 흥미로운 콘텐츠에 대한 웹 페이지를 크롤링하는 데 너치를 사용한다.
  • 위키아 검색 – 2008년 출시, 2009년 종료.[14][15]

7. 기타

IBM 연구소는 자사의 상업적 확장(CSO) 프로젝트의 일환으로 너치/루씬의 성능[8][9]을 연구했다. 연구 결과에 따르면 너치/루씬과 같은 수평 확장 시스템은 POWER5와 같은 수직 확장 컴퓨터에서는 달성할 수 없는 성능 수준을 블레이드 클러스터에서 달성할 수 있었다.

TREC 등에서 사용된 ClueWeb09 데이터세트는 너치를 사용하여 수집되었으며, 초당 평균 755.31개의 문서를 처리했다.[10]

참조

[1] 웹사이트 Apache Nutch™ - Downloads https://nutch.apache[...] 2024-06-11
[2] 웹사이트 Apache Nutch - http://nutch.apache.[...]
[3] 웹사이트 Common Crawl's Move to Nutch – Common Crawl – Blog http://blog.commoncr[...] 2015-10-14
[4] 웹사이트 Nutch 2.3 Release http://nutch.apache.[...] The Apache Software Foundation 2016-01-18
[5] 웹사이트 Nutch 1.10 Release Notes https://issues.apach[...] The Apache Software Foundation 2016-01-18
[6] 웹사이트 Nutch 1.11 Release Notes https://issues.apach[...] The Apache Software Foundation 2016-01-18
[7] 뉴스 Nutch 2.4 Release https://nutch.apache[...] The Apache Software Foundation 2022-05-20
[8] 웹사이트 Scalability of the Nutch search engine http://www.cecs.uci.[...]
[9] 웹사이트 Base Operating System Provisioning and Bringup for a Commercial Supercomputer https://web.archive.[...]
[10] 문서 The Sapphire Web Crawler - Crawl Statistics http://boston.lti.cs[...] Boston.lti.cs.cmu.edu 2013-07-21
[11] 웹사이트 Our Updated Search https://creativecomm[...] Creative Commons 2004-09-03
[12] 웹사이트 Creative Commons Unique Search Tool Now Integrated into Firefox 1.0 https://web.archive.[...] Creative Commons 2004-11-22
[13] 웹사이트 New CC search UI https://creativecomm[...] Creative Commons 2006-08-02
[14] 웹사이트 Where can I get the source code for Wikia Search? https://web.archive.[...] 2010-02-12
[15] 웹사이트 Update on Wikia – doing more of what's working {{pipe}} Jimmy Wales http://jimmywales.co[...] 2009-03-31
[16] 웹인용 Apache Nutch™ - Downloads https://nutch.apache[...] 2022-09-27



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com