심층 웹
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
심층 웹은 일반적인 검색 엔진으로 접근할 수 없는 웹의 일부를 의미하며, 2001년 마이클 버그만의 연구에서 처음 사용되었다. 심층 웹은 다크 웹과 혼동되어 사용되기도 하지만, 다크 웹은 심층 웹의 일부로, 특수한 소프트웨어를 통해서만 접근할 수 있다. 심층 웹은 검색 엔진의 크롤링을 방해하는 여러 요인, 즉 상황별 웹, 동적 콘텐츠, 제한된 접근 콘텐츠, 비 HTML/텍스트 콘텐츠, 개인 웹, 스크립트된 콘텐츠, 소프트웨어, 링크되지 않은 콘텐츠, 웹 아카이브 등으로 인해 색인되지 않는다. 딥 웹에 접근하기 위한 검색 엔진으로는 DeepPeep, Intute 등이 있으며, 자동 크롤링 방법과 Sitemap 프로토콜, OAI-PMH 등의 기술이 활용된다. 한국에서는 딥 웹과 관련된 불법적인 활동이 사회적 문제로 대두되고 있다.
더 읽어볼만한 페이지
- 심층 웹 - 다크 웹
다크 웹은 특수한 소프트웨어를 통해서만 접근 가능한 딥 웹의 일부로, 익명성을 제공하여 내부 고발 등에 활용되기도 하지만 불법 콘텐츠 유통의 온상이 되기도 한다. - 심층 웹 - I2P
I2P는 2003년 Freenet에서 분기된 익명 P2P 분산 통신 계층으로, IP 주소 노출을 방지하며 다양한 소프트웨어와 익명성 응용 프로그램을 지원하고, 기부금으로 운영되며 6~8주마다 릴리스를 진행한다. - 다크 웹 - I2P
I2P는 2003년 Freenet에서 분기된 익명 P2P 분산 통신 계층으로, IP 주소 노출을 방지하며 다양한 소프트웨어와 익명성 응용 프로그램을 지원하고, 기부금으로 운영되며 6~8주마다 릴리스를 진행한다. - 다크 웹 - 주먹왕 랄프 2: 인터넷 속으로
2018년 개봉한 월트 디즈니 애니메이션 스튜디오의 영화 《주먹왕 랄프 2: 인터넷 속으로》는 랄프와 바넬로피가 아케이드 게임 세계를 넘어 인터넷 세상에서 모험하며 우정을 지켜나가는 이야기를 담고 있으며, 리치 무어와 필 존스턴이 감독을 맡고 존 C. 라일리, 사라 실버맨 등이 목소리 연기를 했다. - 월드 와이드 웹 - 구글
구글은 래리 페이지와 세르게이 브린이 개발한 웹 검색 엔진에서 출발하여 검색 기술 혁신을 통해 유튜브, 안드로이드 등 다양한 서비스를 제공하는 세계적인 기술 기업으로 성장했지만, 개인정보보호 및 독점 논란에도 직면하고 있다. - 월드 와이드 웹 - 온라인 언론
온라인 언론은 인터넷을 통해 뉴스 및 정보를 제공하며, 디지털 기술 발달과 함께 성장하여 시민 저널리즘 부상, 정보 전달 속도 혁신 등의 특징을 보이지만 정보 신뢰성 문제, 전통 언론 쇠퇴 등의 과제를 안고 있다.
| 심층 웹 | |
|---|---|
| 지도 | |
| 개요 | |
| 설명 | 검색 엔진에 의해 색인되지 않는 월드 와이드 웹 콘텐츠 |
| 다른 이름 | 딥 웹 (dip web) 인비저블 웹 (inbijibeul web) 히든 웹 (hideun web) |
| 구분 | 다크 웹 |
| 관련 항목 | 표면 웹 |
| 기술적 세부 사항 | |
| 특징 | 동적 콘텐츠 비 링크 콘텐츠 제한된 접근 콘텐츠 스크립트 콘텐츠 비 HTML 콘텐츠 |
| 크롤링 방법 | 점진적 크롤링 HTML 폼 분석 기반 크롤링 온톨로지 기반 크롤링 시맨틱 주석 기반 크롤링 |
2. 용어
'심층 웹'이라는 용어는 2001년 마이클 버그만의 연구에서 처음 사용되었다. 2009년, 심층 웹 검색 용어가 프리넷 및 다크넷에서의 불법 활동과 함께 논의되면서 '심층 웹'과 '다크 웹'이라는 용어가 혼동되기 시작했다.[9] 이러한 범죄 활동에는 개인 비밀번호, 신분증 위조, 마약, 총기 및 아동 포르노의 거래가 포함된다.[10]
버그만은 ''The Journal of Electronic Publishing''에 게재된 심층 웹에 관한 논문에서 질 엘스워스가 1994년에 어떤 검색 엔진에도 등록되지 않은 웹사이트를 지칭하기 위해 "보이지 않는 웹"이라는 용어를 사용했다고 언급했다.[20] 버그만은 1996년 1월 Frank Garcia의 기사를 인용했다:[21]
특히, 불법 시장 웹사이트 실크 로드에 대한 언론 보도 이후, 언론 매체들은 일반적으로 '심층 웹'을 유사어인 다크 웹 또는 다크넷과 동의어로 사용해왔으며, 일부는 부정확하다고 거부하며[11] 결과적으로 지속적인 혼란의 원인이 되었다.[12] ''와이어드''의 기자 킴 제터[13]와 앤디 그린버그[14]는 이 용어를 뚜렷하게 구분하여 사용할 것을 권장한다. 심층 웹은 전통적인 검색 엔진으로 접근할 수 없는 모든 사이트를 지칭하는 반면, 다크 웹은 고의적으로 숨겨져 있으며 표준 브라우저 및 방법으로는 접근할 수 없는 심층 웹의 일부이다.[15][16][17][18][19]
검색 엔진은 일반적으로 크롤러라고 불리는 프로그램을 사용하여 월드 와이드 웹을 순회하며 정보를 수집한다. 그러나 크롤러는 저작권법상의 문제 등으로 인해 특정 기재를 하여 정보 수집을 거부한 페이지의 정보는 수집하지 않는다. 또한, 자바스크립트나 어도비 플래시 등이 사용되면 링크를 따라갈 수 없는 경우가 있으며, 비밀번호로 보호된 페이지도 순회할 수 없다.
이러한 요인들로 인해 검색 엔진에 의해 수집되지 않아, 그 결과 검색할 수 없는 정보가 심층 웹이라고 불린다. 다크 웹은 딥 웹의 일부이지만, "딥 웹 = 다크 웹"은 아니다. 한국에서는 딥 웹과 다크 웹을 혼동하는 경우가 잦으며, 정확한 용어 사용에 대한 인식이 필요하다.
3. 색인되지 않는 콘텐츠
합리적으로 설계되었을 수 있지만, 어떤 검색 엔진에도 등록하지 않은 사이트입니다. 그래서 아무도 찾을 수 없죠! 당신은 숨겨져 있습니다. 저는 그것을 보이지 않는 웹이라고 부릅니다.
"보이지 않는 웹"이라는 용어의 또 다른 초기 사용은 1996년 12월 보도 자료에서 찾을 수 있는 No. 1 딥 웹 프로그램에 대한 설명에서 Personal Library Software의 브루스 마운트와 매튜 B. 콜에 의해 사용되었다.[22]
현재 일반적으로 받아들여지는 특정 용어 "심층 웹"의 첫 번째 사용은 언급된 2001년 버그만 연구에서 이루어졌다.[20]
전통적인 검색 엔진이 웹 페이지를 색인하지 못하도록 하는 방법은 다음과 같이 분류할 수 있다.
;상황별 웹
: 서로 다른 접근 컨텍스트(예: 클라이언트 IP 주소 범위 또는 이전 탐색 시퀀스)에 따라 콘텐츠가 달라지는 페이지이다.[23]
;동적 콘텐츠
: 제출된 쿼리에 대한 응답으로 반환되거나 양식을 통해서만 접근할 수 있는 동적 페이지가 여기에 해당된다.[23] 특히, 열린 도메인 입력 요소(예: 텍스트 필드)가 사용되는 경우, 이러한 필드는 도메인 지식 없이는 탐색하기 어렵다.
;제한된 접근 콘텐츠
: 제한된 접근 콘텐츠는 기술적인 방식으로 페이지에 대한 접근을 제한하는 사이트를 말한다. 예를 들어 로봇 배제 표준이나 CAPTCHA를 사용하거나, 검색 엔진이 캐시된 복사본을 찾아보고 만들지 못하도록 하는 no-store 지시문을 사용하는 경우가 이에 해당한다.[23] 이러한 사이트는 내부 검색 엔진을 갖추고 있기도 하다.[24][25]
;비 HTML/텍스트 콘텐츠
: 비 HTML/텍스트 콘텐츠는 멀티미디어(이미지 또는 비디오) 파일이나 검색 엔진에서 인식하지 못하는 특정 파일 형식으로 인코딩된 텍스트 콘텐츠이다.[23]
;개인 웹
: 개인 웹은 등록 및 로그인이 필요한 사이트, 즉 비밀번호로 보호되는 리소스를 말한다.[23]
;스크립트된 콘텐츠
: 스크립트된 콘텐츠는 JavaScript에서 생성한 링크를 통해서만 접근할 수 있는 페이지, 플래시 또는 Ajax 솔루션을 통해 웹 서버에서 동적으로 다운로드된 콘텐츠를 말한다.[23]
;소프트웨어
: 특정 콘텐츠는 일반 인터넷에서 의도적으로 숨겨져 있으며, Tor, I2P 또는 기타 다크넷 소프트웨어와 같은 특수 소프트웨어를 통해서만 접근할 수 있다.[23] 예를 들어 Tor는 사용자가 .onion 서버 주소를 사용하여 익명으로 웹사이트에 접근하여 IP 주소를 숨길 수 있도록 한다.[24][25][6][26] 한국에서는 다크넷을 이용한 마약 거래, 불법 촬영물 유포 등의 범죄가 사회적 문제로 대두되고 있다.
;링크되지 않은 콘텐츠
: 링크되지 않은 콘텐츠는 다른 페이지에서 링크되지 않은 페이지로, 웹 크롤링 프로그램이 콘텐츠에 접근하지 못하게 할 수 있다. 이 콘텐츠는 백링크가 없는 페이지(inlink라고도 함)라고 한다. 또한 검색 엔진은 검색된 웹 페이지의 모든 백링크를 항상 감지하지는 않는다.
;웹 아카이브
: 웨이백 머신과 같은 웹 아카이빙 서비스를 통해 사용자는 접근할 수 없게 되었고 구글과 같은 검색 엔진에 의해 색인되지 않은 웹사이트를 포함하여 시간에 걸쳐 웹 페이지의 보관된 버전을 볼 수 있다.[6] 웨이백 머신은 심층 웹을 보기 위한 프로그램이라고 할 수 있는데, 현재가 아닌 웹 아카이브는 검색을 통해 과거 버전의 웹사이트를 볼 수 없으므로 색인될 수 없기 때문이다.[26] 모든 웹사이트는 언젠가는 업데이트되므로 웹 아카이브는 심층 웹 콘텐츠로 간주된다.[26]
3. 1. 상황별 웹
서로 다른 접근 컨텍스트(예: 클라이언트 IP 주소 범위 또는 이전 탐색 시퀀스)에 따라 콘텐츠가 달라지는 페이지이다.[23]
3. 2. 동적 콘텐츠
제출된 쿼리에 대한 응답으로 반환되거나 양식을 통해서만 접근할 수 있는 동적 페이지가 여기에 해당된다.[23] 특히, 열린 도메인 입력 요소(예: 텍스트 필드)가 사용되는 경우, 이러한 필드는 도메인 지식 없이는 탐색하기 어렵다.
3. 3. 제한된 접근 콘텐츠
제한된 접근 콘텐츠는 기술적인 방식으로 페이지에 대한 접근을 제한하는 사이트를 말한다. 예를 들어 로봇 배제 표준이나 CAPTCHA를 사용하거나, 검색 엔진이 캐시된 복사본을 찾아보고 만들지 못하도록 하는 no-store 지시문을 사용하는 경우가 이에 해당한다.[23] 이러한 사이트는 내부 검색 엔진을 갖추고 있기도 하다.[24][25]
3. 4. 비 HTML/텍스트 콘텐츠
비 HTML/텍스트 콘텐츠는 멀티미디어(이미지 또는 비디오) 파일이나 검색 엔진에서 인식하지 못하는 특정 파일 형식으로 인코딩된 텍스트 콘텐츠이다.[23]
3. 5. 개인 웹
개인 웹은 등록 및 로그인이 필요한 사이트, 즉 비밀번호로 보호되는 리소스를 말한다.[23]
3. 6. 스크립트된 콘텐츠
스크립트된 콘텐츠는 JavaScript에서 생성한 링크를 통해서만 접근할 수 있는 페이지, 플래시 또는 Ajax 솔루션을 통해 웹 서버에서 동적으로 다운로드된 콘텐츠를 말한다.[23]
3. 7. 소프트웨어
특정 콘텐츠는 일반 인터넷에서 의도적으로 숨겨져 있으며, Tor, I2P 또는 기타 다크넷 소프트웨어와 같은 특수 소프트웨어를 통해서만 접근할 수 있다.[23] 예를 들어 Tor는 사용자가 .onion 서버 주소를 사용하여 익명으로 웹사이트에 접근하여 IP 주소를 숨길 수 있도록 한다.[24][25][6][26] 한국에서는 다크넷을 이용한 마약 거래, 불법 촬영물 유포 등의 범죄가 사회적 문제로 대두되고 있다.
3. 8. 링크되지 않은 콘텐츠
링크되지 않은 콘텐츠는 다른 페이지에서 링크되지 않은 페이지로, 웹 크롤링 프로그램이 콘텐츠에 접근하지 못하게 할 수 있다. 이 콘텐츠는 백링크가 없는 페이지(inlink라고도 함)라고 한다. 또한 검색 엔진은 검색된 웹 페이지의 모든 백링크를 항상 감지하지는 않는다.
3. 9. 웹 아카이브
웨이백 머신과 같은 웹 아카이빙 서비스를 통해 사용자는 접근할 수 없게 되었고 구글과 같은 검색 엔진에 의해 색인되지 않은 웹사이트를 포함하여 시간에 걸쳐 웹 페이지의 보관된 버전을 볼 수 있다.[6] 웨이백 머신은 심층 웹을 보기 위한 프로그램이라고 할 수 있는데, 현재가 아닌 웹 아카이브는 검색을 통해 과거 버전의 웹사이트를 볼 수 없으므로 색인될 수 없기 때문이다.[26] 모든 웹사이트는 언젠가는 업데이트되므로 웹 아카이브는 심층 웹 콘텐츠로 간주된다.[26]
4. 색인 방법
DeepPeep, Intute, Deep Web Technologies, Scirus, Ahmia.fi는 딥 웹에 접근한 몇몇 검색 엔진이다.[27][28] 연구자들은 딥 웹을 자동 방식으로 크롤링하는 방법을 연구해 왔다.[29][30][31][32][33][34] 상업용 검색 엔진은 딥 웹을 크롤링하는 대체 방법을 탐색하기 시작했다. Sitemap 프로토콜과 OAI-PMH는 검색 엔진 및 기타 관련 당사자가 특정 웹 서버에서 딥 웹 리소스를 검색할 수 있도록 하는 메커니즘이다.[35] 2008년, Aaron Swartz는 Tor 숨겨진 서비스 사용자가 숨겨진 .onion 접미사에 접근하고 검색하는 것을 용이하게 하기 위해 Tor2web을 설계했다.[36]
검색 엔진은 알려진 프로토콜 가상 포트 (컴퓨터 네트워킹) 번호를 통해 하이퍼링크를 따라가는 웹 크롤러를 사용하여 웹에서 콘텐츠를 검색한다. 이 기술은 표면 웹에서 콘텐츠를 검색하는 데는 이상적이지만, 딥 웹 콘텐츠를 찾는 데는 종종 비효율적이다. 예를 들어, 이러한 크롤러는 가능한 쿼리의 수가 무한하기 때문에 데이터베이스 쿼리의 결과인 동적 페이지를 찾으려고 시도하지 않는다.[6]
Sriram Raghavan과 Hector Garcia-Molina는 사용자가 제공하거나 쿼리 인터페이스에서 수집한 중요한 용어를 사용하여 웹 양식을 쿼리하고 딥 웹 콘텐츠를 크롤링하는 숨겨진 웹 크롤러의 아키텍처 모델을 제시했다. Alexandros Ntoulas, Petros Zerfos 및 Junghoo Cho는 검색 양식에 대해 의미 있는 쿼리를 자동으로 생성하는 숨겨진 웹 크롤러를 만들었다. 쿼리를 실행하는 것 외에도 결과 페이지에서 구조화된 데이터를 추출할 수 있는 여러 양식 쿼리 언어(예: DEQUEL)가 제안되었다. 국립 과학 재단의 후원을 받아 유타 대학교의 프로젝트인 DeepPeep은 새로운 집중 크롤러 기술을 기반으로 다양한 도메인에서 숨겨진 웹 소스(웹 양식)를 수집했다.
구글의 딥 웹 서페이싱 시스템은 각 HTML 양식에 대한 제출물을 계산하고 결과 HTML 페이지를 구글 검색 엔진 색인에 추가한다. 서페이싱된 결과는 딥 웹 콘텐츠에 대해 초당 1,000개의 쿼리를 차지한다. 이 시스템에서 제출물의 사전 계산은 세 가지 알고리즘을 사용하여 수행된다.
5. 한국에서의 딥 웹 관련 문제
참조
[1]
서적
Proceedings of the IADIS International Conference on e-Society
IADIS Press
[2]
간행물
Beyond google: the invisible web in the academic library
2021-08
[3]
간행물
Crawling the Hidden Web
http://ilpubs.stanfo[...]
2001-09-11
[4]
웹사이트
Council Post: Lessons Learned From Tracing Cybercrime’s Evolution On The Dark Web
https://www.forbes.c[...]
2024-09-22
[5]
웹사이트
Surface Web
https://www.computer[...]
Computer Hope
2018-06-20
[6]
뉴스
Exploring a 'Deep Web' That Google Can't Grasp
https://www.nytimes.[...]
2019-09-02
[7]
문서
Google's deep web crawl
2008
[8]
뉴스
How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web
https://www.questia.[...]
2014-06-08
[9]
뉴스
The dark side of the internet
https://www.theguard[...]
2015-08-09
[10]
Youtube
Easiest Catch: Don't Be Another Fish in the Dark Net
https://www.youtube.[...]
TEDx Talks
[11]
웹사이트
Clearing Up Confusion – Deep Web vs. Dark Web
http://www.brightpla[...]
BrightPlanet
2014-03-27
[12]
뉴스
The Deep Web vs. The Dark Web
http://blog.dictiona[...]
2015-05-26
[13]
뉴스
Going Dark: The Internet Behind The Internet
https://www.npr.org/[...]
2015-05-29
[14]
뉴스
Hacker Lexicon: What Is the Dark Web?
https://www.wired.co[...]
2015-06-06
[15]
웹사이트
The Impact of the Dark Web on Internet Governance and Cyber Security
https://www.ourinter[...]
2017-01-15
[16]
서적
Information and Communications Security: 18th International Conference, ICICS 2016, Singapore, Singapore, November 29 – December 2, 2016, Proceedings
https://books.google[...]
Springer
2017-01-15
[17]
웹사이트
The Deep Web vs. The Dark Web
http://blog.dictiona[...]
Dictionary Blog
2017-01-15
[18]
서적
Open Source Intelligence Investigation: From Strategy to Implementation
https://books.google[...]
Springer
2017-01-15
[19]
뉴스
What is the dark web and who uses it?
https://www.theglobe[...]
2017-01-15
[20]
간행물
The Deep Web: Surfacing Hidden Value
http://quod.lib.umic[...]
2001-08
[21]
간행물
Business and Marketing on the Internet
http://tcp.ca/Jan96/[...]
2009-02-24
[22]
보도자료
PLS introduces AT1, the first 'second generation' Internet search service
http://www.pls.com/n[...]
Personal Library Software
2009-02-24
[23]
간행물
Hypertext Transfer Protocol (HTTP/1.1): Caching
http://tools.ietf.or[...]
2014-07-30
[24]
문서
Special:Search
[25]
웹사이트
Internet Archive Search
https://archive.org/[...]
[26]
웹사이트
NASA is indexing the 'Deep Web' to show mankind what Google won't
http://fusion.net/st[...]
Fusion
2015-06-27
[27]
웹사이트
Intute FAQ, dead link
http://www.intute.ac[...]
2012-10-13
[28]
웹사이트
Elsevier to Retire Popular Science Search Engine
http://library.bldrd[...]
2015-06-22
[29]
웹사이트
Crawling the Hidden Web
http://ilpubs.stanfo[...]
Stanford Digital Libraries Technical Report
2008-12-27
[30]
학술회의
Crawling the Hidden Web
http://www.dia.uniro[...]
[31]
웹사이트
Downloading Hidden Web Content
http://oak.cs.ucla.e[...]
UCLA Computer Science
2009-02-24
[32]
간행물
DEQUE: Querying the Deep Web
http://www.inf.ufsc.[...]
[33]
학술회의
An Adaptive Crawler for Locating Hidden-Web Entry Points
http://www.cs.utah.e[...]
2009-03-20
[34]
학술회의
Searching for Hidden-Web Databases
http://www.cs.utah.e[...]
2009-03-20
[35]
학술회의
Google's Deep-Web Crawl
https://homes.cs.was[...]
VLDB Endowment, ACM
2009-04-17
[36]
웹사이트
In Defense of Anonymity
http://www.aaronsw.c[...]
2014-02-04
[37]
웹사이트
Surface Web
https://www.computer[...]
Computer Hope
2018-06-20
[38]
뉴스
Exploring a 'Deep Web' That Google Can't Grasp
https://www.nytimes.[...]
2009-02-22
[39]
저널
The Mechanics of a Deep Net Metasearch Engine
[40]
저널
Development of Metadata Elements for Intensive Web Archiving
http://dx.doi.org/10[...]
2007-06-30
[41]
저널
The Deep Web: Surfacing Hidden Value
http://quod.lib.umic[...]
[42]
저널
Accessing the Deep Web: A Survey
http://doi.acm.org/1[...]
[43]
서적
Sampling the National Deep Web
http://www.mendeley.[...]
Springer
2012-10-06
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com