심층 웹
1. 개요
심층 웹은 일반적인 검색 엔진으로 접근할 수 없는 웹의 일부를 의미하며, 2001년 마이클 버그만의 연구에서 처음 사용되었다. 심층 웹은 다크 웹과 혼동되어 사용되기도 하지만, 다크 웹은 심층 웹의 일부로, 특수한 소프트웨어를 통해서만 접근할 수 있다. 심층 웹은 검색 엔진의 크롤링을 방해하는 여러 요인, 즉 상황별 웹, 동적 콘텐츠, 제한된 접근 콘텐츠, 비 HTML/텍스트 콘텐츠, 개인 웹, 스크립트된 콘텐츠, 소프트웨어, 링크되지 않은 콘텐츠, 웹 아카이브 등으로 인해 색인되지 않는다. 딥 웹에 접근하기 위한 검색 엔진으로는 DeepPeep, Intute 등이 있으며, 자동 크롤링 방법과 Sitemap 프로토콜, OAI-PMH 등의 기술이 활용된다. 한국에서는 딥 웹과 관련된 불법적인 활동이 사회적 문제로 대두되고 있다.
| 설명 | 검색 엔진에 의해 색인되지 않는 월드 와이드 웹 콘텐츠 |
|---|---|
| 다른 이름 | 딥 웹 (dip web) 인비저블 웹 (inbijibeul web) 히든 웹 (hideun web) |
| 구분 | 다크 웹 |
| 관련 항목 | 표면 웹 |
| 특징 | 동적 콘텐츠 비 링크 콘텐츠 제한된 접근 콘텐츠 스크립트 콘텐츠 비 HTML 콘텐츠 |
|---|---|
| 크롤링 방법 | 점진적 크롤링 HTML 폼 분석 기반 크롤링 온톨로지 기반 크롤링 시맨틱 주석 기반 크롤링 |
-
심층 웹 -
다크 웹
다크 웹은 특수한 소프트웨어를 통해서만 접근 가능한 딥 웹의 일부로, 익명성을 제공하여 내부 고발 등에 활용되기도 하지만 불법 콘텐츠 유통의 온상이 되기도 한다. -
심층 웹 -
I2P
I2P는 2003년 Freenet에서 분기된 익명 P2P 분산 통신 계층으로, IP 주소 노출을 방지하며 다양한 소프트웨어와 익명성 응용 프로그램을 지원하고, 기부금으로 운영되며 6~8주마다 릴리스를 진행한다. -
다크 웹 -
I2P
I2P는 2003년 Freenet에서 분기된 익명 P2P 분산 통신 계층으로, IP 주소 노출을 방지하며 다양한 소프트웨어와 익명성 응용 프로그램을 지원하고, 기부금으로 운영되며 6~8주마다 릴리스를 진행한다. -
다크 웹 -
주먹왕 랄프 2: 인터넷 속으로
2018년 개봉한 월트 디즈니 애니메이션 스튜디오의 영화 《주먹왕 랄프 2: 인터넷 속으로》는 랄프와 바넬로피가 아케이드 게임 세계를 넘어 인터넷 세상에서 모험하며 우정을 지켜나가는 이야기를 담고 있으며, 리치 무어와 필 존스턴이 감독을 맡고 존 C. 라일리, 사라 실버맨 등이 목소리 연기를 했다. -
2000년대 신조어 -
조중동
조중동은 대한민국 3대 일간지인 조선일보, 중앙일보, 동아일보를 통칭하는 말로, 보수적 성향과 보도 행태에 대한 비판적 시각에서 사용되며, 과거 친일 행적 논란, 정치적 편향성, 오보 및 왜곡 보도 등으로 비판받는 사회적 논란의 중심에 있는 신문들이다. -
2000년대 신조어 -
유튜버
유튜버는 유튜브에 비디오를 제작 및 게시하는 사람으로, 대한민국에서는 유튜브 크리에이터라고도 불리며 MCN의 등장으로 직업으로 자리 잡았으나, 영향력 증가와 수익 창출에도 불구하고 시장 과점, 수익 불안정성, 영상 조작, 저작권 침해 등 문제점과 비판이 존재한다.
2. 용어
'심층 웹'이라는 용어는 2001년 마이클 버그만의 연구에서 처음 사용되었다. 2009년, 심층 웹 검색 용어가 프리넷 및 다크넷에서의 불법 활동과 함께 논의되면서 '심층 웹'과 '다크 웹'이라는 용어가 혼동되기 시작했다. 이러한 범죄 활동에는 개인 비밀번호, 신분증 위조, 마약, 총기 및 아동 포르노의 거래가 포함된다.
특히, 불법 시장 웹사이트 실크 로드에 대한 언론 보도 이후, 언론 매체들은 일반적으로 '심층 웹'을 유사어인 다크 웹 또는 다크넷과 동의어로 사용해왔으며, 일부는 부정확하다고 거부하며 결과적으로 지속적인 혼란의 원인이 되었다. 와이어드의 기자 킴 제터와 앤디 그린버그는 이 용어를 뚜렷하게 구분하여 사용할 것을 권장한다. 심층 웹은 전통적인 검색 엔진으로 접근할 수 없는 모든 사이트를 지칭하는 반면, 다크 웹은 고의적으로 숨겨져 있으며 표준 브라우저 및 방법으로는 접근할 수 없는 심층 웹의 일부이다.
검색 엔진은 일반적으로 크롤러라고 불리는 프로그램을 사용하여 월드 와이드 웹을 순회하며 정보를 수집한다. 그러나 크롤러는 저작권법상의 문제 등으로 인해 특정 기재를 하여 정보 수집을 거부한 페이지의 정보는 수집하지 않는다. 또한, 자바스크립트나 어도비 플래시 등이 사용되면 링크를 따라갈 수 없는 경우가 있으며, 비밀번호로 보호된 페이지도 순회할 수 없다.
이러한 요인들로 인해 검색 엔진에 의해 수집되지 않아, 그 결과 검색할 수 없는 정보가 심층 웹이라고 불린다. 다크 웹은 딥 웹의 일부이지만, "딥 웹 = 다크 웹"은 아니다. 한국에서는 딥 웹과 다크 웹을 혼동하는 경우가 잦으며, 정확한 용어 사용에 대한 인식이 필요하다.
3. 색인되지 않는 콘텐츠
버그만은 The Journal of Electronic Publishing에 게재된 심층 웹에 관한 논문에서 질 엘스워스가 1994년에 어떤 검색 엔진에도 등록되지 않은 웹사이트를 지칭하기 위해 "보이지 않는 웹"이라는 용어를 사용했다고 언급했다. 버그만은 1996년 1월 Frank Garcia의 기사를 인용했다:
합리적으로 설계되었을 수 있지만, 어떤 검색 엔진에도 등록하지 않은 사이트입니다. 그래서 아무도 찾을 수 없죠! 당신은 숨겨져 있습니다. 저는 그것을 보이지 않는 웹이라고 부릅니다.
"보이지 않는 웹"이라는 용어의 또 다른 초기 사용은 1996년 12월 보도 자료에서 찾을 수 있는 No. 1 딥 웹 프로그램에 대한 설명에서 Personal Library Software의 브루스 마운트와 매튜 B. 콜에 의해 사용되었다.
현재 일반적으로 받아들여지는 특정 용어 "심층 웹"의 첫 번째 사용은 언급된 2001년 버그만 연구에서 이루어졌다.
전통적인 검색 엔진이 웹 페이지를 색인하지 못하도록 하는 방법은 다음과 같이 분류할 수 있다.
;상황별 웹
: 서로 다른 접근 컨텍스트(예: 클라이언트 IP 주소 범위 또는 이전 탐색 시퀀스)에 따라 콘텐츠가 달라지는 페이지이다.
;동적 콘텐츠
: 제출된 쿼리에 대한 응답으로 반환되거나 양식을 통해서만 접근할 수 있는 동적 페이지가 여기에 해당된다. 특히, 열린 도메인 입력 요소(예: 텍스트 필드)가 사용되는 경우, 이러한 필드는 도메인 지식 없이는 탐색하기 어렵다.
;제한된 접근 콘텐츠
: 제한된 접근 콘텐츠는 기술적인 방식으로 페이지에 대한 접근을 제한하는 사이트를 말한다. 예를 들어 로봇 배제 표준이나 CAPTCHA를 사용하거나, 검색 엔진이 캐시된 복사본을 찾아보고 만들지 못하도록 하는 no-store 지시문을 사용하는 경우가 이에 해당한다. 이러한 사이트는 내부 검색 엔진을 갖추고 있기도 하다.
;비 HTML/텍스트 콘텐츠
: 비 HTML/텍스트 콘텐츠는 멀티미디어(이미지 또는 비디오) 파일이나 검색 엔진에서 인식하지 못하는 특정 파일 형식으로 인코딩된 텍스트 콘텐츠이다.
;개인 웹
: 개인 웹은 등록 및 로그인이 필요한 사이트, 즉 비밀번호로 보호되는 리소스를 말한다.
;스크립트된 콘텐츠
: 스크립트된 콘텐츠는 JavaScript에서 생성한 링크를 통해서만 접근할 수 있는 페이지, 플래시 또는 Ajax 솔루션을 통해 웹 서버에서 동적으로 다운로드된 콘텐츠를 말한다.
;소프트웨어
: 특정 콘텐츠는 일반 인터넷에서 의도적으로 숨겨져 있으며, Tor, I2P 또는 기타 다크넷 소프트웨어와 같은 특수 소프트웨어를 통해서만 접근할 수 있다. 예를 들어 Tor는 사용자가 .onion 서버 주소를 사용하여 익명으로 웹사이트에 접근하여 IP 주소를 숨길 수 있도록 한다. 한국에서는 다크넷을 이용한 마약 거래, 불법 촬영물 유포 등의 범죄가 사회적 문제로 대두되고 있다.
;링크되지 않은 콘텐츠
: 링크되지 않은 콘텐츠는 다른 페이지에서 링크되지 않은 페이지로, 웹 크롤링 프로그램이 콘텐츠에 접근하지 못하게 할 수 있다. 이 콘텐츠는 백링크가 없는 페이지(inlink라고도 함)라고 한다. 또한 검색 엔진은 검색된 웹 페이지의 모든 백링크를 항상 감지하지는 않는다.
;웹 아카이브
: 웨이백 머신과 같은 웹 아카이빙 서비스를 통해 사용자는 접근할 수 없게 되었고 구글과 같은 검색 엔진에 의해 색인되지 않은 웹사이트를 포함하여 시간에 걸쳐 웹 페이지의 보관된 버전을 볼 수 있다. 웨이백 머신은 심층 웹을 보기 위한 프로그램이라고 할 수 있는데, 현재가 아닌 웹 아카이브는 검색을 통해 과거 버전의 웹사이트를 볼 수 없으므로 색인될 수 없기 때문이다. 모든 웹사이트는 언젠가는 업데이트되므로 웹 아카이브는 심층 웹 콘텐츠로 간주된다.
3.2. 동적 콘텐츠
제출된 쿼리에 대한 응답으로 반환되거나 양식을 통해서만 접근할 수 있는 동적 페이지가 여기에 해당된다. 특히, 열린 도메인 입력 요소(예: 텍스트 필드)가 사용되는 경우, 이러한 필드는 도메인 지식 없이는 탐색하기 어렵다.
3.3. 제한된 접근 콘텐츠
제한된 접근 콘텐츠는 기술적인 방식으로 페이지에 대한 접근을 제한하는 사이트를 말한다. 예를 들어 로봇 배제 표준이나 CAPTCHA를 사용하거나, 검색 엔진이 캐시된 복사본을 찾아보고 만들지 못하도록 하는 no-store 지시문을 사용하는 경우가 이에 해당한다. 이러한 사이트는 내부 검색 엔진을 갖추고 있기도 하다.
3.4. 비 HTML/텍스트 콘텐츠
비 HTML/텍스트 콘텐츠는 멀티미디어(이미지 또는 비디오) 파일이나 검색 엔진에서 인식하지 못하는 특정 파일 형식으로 인코딩된 텍스트 콘텐츠이다.
3.6. 스크립트된 콘텐츠
스크립트된 콘텐츠는 JavaScript에서 생성한 링크를 통해서만 접근할 수 있는 페이지, 플래시 또는 Ajax 솔루션을 통해 웹 서버에서 동적으로 다운로드된 콘텐츠를 말한다.
3.7. 소프트웨어
특정 콘텐츠는 일반 인터넷에서 의도적으로 숨겨져 있으며, Tor, I2P 또는 기타 다크넷 소프트웨어와 같은 특수 소프트웨어를 통해서만 접근할 수 있다. 예를 들어 Tor는 사용자가 .onion 서버 주소를 사용하여 익명으로 웹사이트에 접근하여 IP 주소를 숨길 수 있도록 한다. 한국에서는 다크넷을 이용한 마약 거래, 불법 촬영물 유포 등의 범죄가 사회적 문제로 대두되고 있다.
3.8. 링크되지 않은 콘텐츠
링크되지 않은 콘텐츠는 다른 페이지에서 링크되지 않은 페이지로, 웹 크롤링 프로그램이 콘텐츠에 접근하지 못하게 할 수 있다. 이 콘텐츠는 백링크가 없는 페이지(inlink라고도 함)라고 한다. 또한 검색 엔진은 검색된 웹 페이지의 모든 백링크를 항상 감지하지는 않는다.
3.9. 웹 아카이브
웨이백 머신과 같은 웹 아카이빙 서비스를 통해 사용자는 접근할 수 없게 되었고 구글과 같은 검색 엔진에 의해 색인되지 않은 웹사이트를 포함하여 시간에 걸쳐 웹 페이지의 보관된 버전을 볼 수 있다. 웨이백 머신은 심층 웹을 보기 위한 프로그램이라고 할 수 있는데, 현재가 아닌 웹 아카이브는 검색을 통해 과거 버전의 웹사이트를 볼 수 없으므로 색인될 수 없기 때문이다. 모든 웹사이트는 언젠가는 업데이트되므로 웹 아카이브는 심층 웹 콘텐츠로 간주된다.
4. 색인 방법
DeepPeep, Intute, Deep Web Technologies, Scirus, Ahmia.fi는 딥 웹에 접근한 몇몇 검색 엔진이다. 연구자들은 딥 웹을 자동 방식으로 크롤링하는 방법을 연구해 왔다. 상업용 검색 엔진은 딥 웹을 크롤링하는 대체 방법을 탐색하기 시작했다. Sitemap 프로토콜과 OAI-PMH는 검색 엔진 및 기타 관련 당사자가 특정 웹 서버에서 딥 웹 리소스를 검색할 수 있도록 하는 메커니즘이다. 2008년, Aaron Swartz는 Tor 숨겨진 서비스 사용자가 숨겨진 .onion 접미사에 접근하고 검색하는 것을 용이하게 하기 위해 Tor2web을 설계했다.
검색 엔진은 알려진 프로토콜 가상 포트 (컴퓨터 네트워킹) 번호를 통해 하이퍼링크를 따라가는 웹 크롤러를 사용하여 웹에서 콘텐츠를 검색한다. 이 기술은 표면 웹에서 콘텐츠를 검색하는 데는 이상적이지만, 딥 웹 콘텐츠를 찾는 데는 종종 비효율적이다. 예를 들어, 이러한 크롤러는 가능한 쿼리의 수가 무한하기 때문에 데이터베이스 쿼리의 결과인 동적 페이지를 찾으려고 시도하지 않는다.
Sriram Raghavan과 Hector Garcia-Molina는 사용자가 제공하거나 쿼리 인터페이스에서 수집한 중요한 용어를 사용하여 웹 양식을 쿼리하고 딥 웹 콘텐츠를 크롤링하는 숨겨진 웹 크롤러의 아키텍처 모델을 제시했다. Alexandros Ntoulas, Petros Zerfos 및 Junghoo Cho는 검색 양식에 대해 의미 있는 쿼리를 자동으로 생성하는 숨겨진 웹 크롤러를 만들었다. 쿼리를 실행하는 것 외에도 결과 페이지에서 구조화된 데이터를 추출할 수 있는 여러 양식 쿼리 언어(예: DEQUEL)가 제안되었다. 국립 과학 재단의 후원을 받아 유타 대학교의 프로젝트인 DeepPeep은 새로운 집중 크롤러 기술을 기반으로 다양한 도메인에서 숨겨진 웹 소스(웹 양식)를 수집했다.
구글의 딥 웹 서페이싱 시스템은 각 HTML 양식에 대한 제출물을 계산하고 결과 HTML 페이지를 구글 검색 엔진 색인에 추가한다. 서페이싱된 결과는 딥 웹 콘텐츠에 대해 초당 1,000개의 쿼리를 차지한다. 이 시스템에서 제출물의 사전 계산은 세 가지 알고리즘을 사용하여 수행된다.