웹 아카이빙

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

웹 아카이빙은 웹의 정보를 장기적으로 보존하고 접근 가능하게 만드는 활동이다. 1990년대 후반부터 시작되어, 1996년 브루스터 케일에 의해 설립된 인터넷 아카이브가 대표적인 초기 프로젝트이다. 웹 아카이빙은 크롤링, 거래적 아카이빙, 수동 아카이빙 등의 방법으로 이루어지며, HTML, 스타일 시트, 자바스크립트, 이미지, 비디오 등 다양한 유형의 웹 콘텐츠를 수집한다. 기술적인 문제와 더불어 저작권, 개인 정보 보호, 잊힐 권리와 같은 법적, 윤리적 문제에 직면해 있다. 한국에서는 국가기록원, 국립중앙도서관 등이 공공기관 웹사이트 아카이빙을 수행하고 있지만, 민간 영역의 웹 아카이빙은 아직 초기 단계이며 관련 법/제도 정비가 필요한 상황이다.

더 읽어볼만한 페이지

보존 및 수복 - 문화재 반환
문화재 반환은 불법적 또는 부당한 방법으로 해외로 반출된 문화재를 원 소유국으로 되돌려받는 과정으로, 문화 국가주의와 문화 국제주의 간의 논쟁을 야기하며, 국제법적 구속력 부재로 국가 간 합의와 협상에 의존하고 있다.
보존 및 수복 - 문화재 보존
문화재 보존은 역사적, 예술적, 학술적 가치를 지닌 문화유산을 보호 및 관리하여 과거 유산의 가치를 현재와 미래 세대가 향유하고 역사적 교훈을 얻도록 하는 활동이다.
미국 의회도서관 - 미국국립과학원
미국 국립 과학원은 1863년 링컨 대통령의 승인으로 설립되어 정부에 과학 기술 자문을 제공하고, 과학 연구 장려 및 학술 활동 지원, 학술지 발행, 연례 회의 개최, 과학자 시상 등의 활동을 하는 미국의 과학 아카데미이다.
미국 의회도서관 - 미국 국립영화등기부
미국 국립영화등기부는 미국 의회도서관이 국립 영화 보존법에 따라 문화적, 역사적, 미학적으로 중요한 영화를 보존하기 위해 설립되었으며, 매년 25편의 영화를 등재하여 미국 영화 유산을 보존하고 알리는 데 기여하며, 개봉 후 10년이 지난 영화에 등재 자격이 주어진다.
박물관학 - 레플리카
레플리카는 원본의 사본 또는 위조품을 의미하며, 박물관의 보존, 연구, 교육, 전시 목적이나 상업적 판매를 위해 다양한 형태로 제작되지만, 진품성 논란과 윤리적 문제를 야기하기도 한다.
박물관학 - 수집
수집은 유형, 무형의 대상을 아우르는 인간의 행위로 문화 발전에 기여하며, 사물의 실용적 기능 분리 및 독자적인 체계 통합을 특징으로 하는 컬렉션의 형태로 나타나지만, 강박적인 경우 사회 문제를 야기하기도 하는 예술, 학문, 취미 활동이다.

웹 아카이빙
웹 아카이빙 정보
웹 아카이브 스키마
유형	디지털 보존
설명	웹사이트 콘텐츠를 수집하여 저장하는 과정 시간이 지남에 따라 변경되거나 사라질 수 있는 정보를 보존
관련 분야	도서관학 기록 관리 디지털 보존 정보 기술
목적
목적	연구 역사적 기록 문화유산 보존 접근성 향상
기술적 측면
크롤링	웹사이트 콘텐츠를 수집하는 기술
인덱싱	수집된 콘텐츠를 검색 가능하게 만드는 기술
메타데이터	수집된 콘텐츠에 대한 정보 (예: 날짜, 출처)
표준 및 지침
IIPC	국제 인터넷 보존 컨소시엄
WARC	웹 아카이브 파일 포맷
주요 기관 및 프로젝트
인터넷 아카이브	웨이백 머신 운영
국립 도서관	각국 국립 도서관의 웹 아카이빙 프로그램
LOCKSS	LOCKSS (Lots of Copies Keep Stuff Safe) 프로그램
기타
고려 사항	저작권 개인 정보 보호 접근성

2. 역사와 발전

웹의 큐레이션과 정리는 1990년대 중후반부터 널리 이루어졌지만, 최초의 대규모 웹 아카이빙 프로젝트 중 하나는 1996년 브루스터 케일이 설립한 비영리 단체인 인터넷 아카이브였다.^[3] 인터넷 아카이브는 보관된 웹 콘텐츠를 볼 수 있는 자체 검색 엔진인 웨이백 머신을 2001년에 출시했다.^[3] 2018년 기준으로 인터넷 아카이브는 40페타바이트의 데이터를 보유하고 있었다.^[4] 인터넷 아카이브는 또한 대량의 데이터를 효율적이고 안전하게 저장하기 위한 페타박스, 북유럽 국립 도서관과 공동 개발한 웹 크롤러인 헤리티릭스를 포함하여 자체 도구를 많이 개발했다.^[3] 이와 동시에 시작된 다른 프로젝트로는 캐나다 국립 도서관, 호주의 판도라, 태즈메이니아 웹 아카이브, 스웨덴의 Kulturarw3의 웹 아카이빙 프로젝트가 있었다.^[5]^[6]

2001년부터 2010년까지, 국제 웹 아카이빙 워크숍(IWAW)은 경험을 공유하고 아이디어를 교환할 수 있는 플랫폼을 제공했다.^[7]^[8] 2003년에 설립된 국제 인터넷 보존 컨소시엄(IIPC)은 웹 아카이브 제작을 위한 표준 및 오픈 소스 도구 개발에 대한 국제 협력을 촉진했다.^[9]

현재는 운영되지 않는 인터넷 메모리 재단은 2004년에 설립되었으며, 유럽 위원회에 의해 설립되어 유럽 웹을 아카이브하기 위해 설립되었다.^[3] 이 프로젝트는 "리치 미디어 캡처, 시계열 일관성 분석, 스팸 평가 및 용어 진화 감지"와 같은 많은 오픈 소스 도구를 개발하고 출시했다.^[3] 재단의 데이터는 현재 인터넷 아카이브에 보관되어 있지만, 현재는 공개적으로 접근할 수 없다.^[10]

웹 콘텐츠는 보존에 대한 중앙 집중식 책임이 없음에도 불구하고 빠르게 공식 기록이 되고 있다. 예를 들어, 2017년 미국 법무부는 정부가 대통령의 트윗을 공식 성명으로 간주한다고 확인했다.^[11]

2. 1. 초기 주요 프로젝트

1996년 브루스터 케일이 설립한 비영리 단체인 인터넷 아카이브는 초기 대규모 웹 아카이빙 프로젝트의 대표적인 예이다.^[3] 인터넷 아카이브는 2001년 보관된 웹 콘텐츠를 검색할 수 있는 웨이백 머신을 출시했다.^[3] 2018년 기준으로 인터넷 아카이브는 40페타바이트의 데이터를 보유하고 있었다.^[4] 인터넷 아카이브는 대량의 데이터를 효율적이고 안전하게 저장하기 위한 페타박스, 북유럽 국립 도서관과 공동 개발한 웹 크롤러인 헤리티릭스를 포함하여 자체 도구를 많이 개발했다.^[3] 이와 동시에 시작된 다른 프로젝트로는 캐나다 국립 도서관, 호주의 판도라, 태즈메이니아 웹 아카이브, 스웨덴의 Kulturarw3의 웹 아카이빙 프로젝트가 있었다.^[5]^[6]

2. 2. 국제 협력

1996년 브루스터 케일이 설립한 비영리 단체인 인터넷 아카이브는 초기 대규모 웹 아카이빙 프로젝트 중 하나였다.^[3] 인터넷 아카이브는 웨이백 머신을 2001년에 출시하여 보관된 웹 콘텐츠를 볼 수 있게 하였다.^[3]

2001년부터 2010년까지 국제 웹 아카이빙 워크숍(IWAW)은 경험 공유와 아이디어 교환의 장을 제공했다.^[7]^[8] 2003년에는 국제 인터넷 보존 컨소시엄(IIPC)이 설립되어 웹 아카이브 제작을 위한 표준 및 오픈 소스 도구 개발에 대한 국제 협력을 촉진했다.^[9]

2004년에는 유럽 위원회에 의해 인터넷 메모리 재단이 설립되어 유럽 웹을 아카이브했다.^[3] 이 프로젝트는 다양한 오픈 소스 도구를 개발하고 출시했다.^[3] 재단의 데이터는 현재 인터넷 아카이브에 보관되어 있지만, 공개적으로 접근할 수는 없다.^[10]

웹 콘텐츠는 중앙 집중식 책임 기관이 없음에도 불구하고 빠르게 공식 기록이 되고 있다. 일례로, 2017년 미국 법무부는 정부가 대통령의 트윗을 공식 성명으로 간주한다고 확인했다.^[11]

2. 3. 유럽의 노력

인터넷 메모리 재단은 2004년에 설립되어 유럽 웹 아카이브를 목표로 했다.^[3] 이 프로젝트는 "리치 미디어 캡처, 시계열 일관성 분석, 스팸 평가 및 용어 진화 감지"와 같은 많은 오픈 소스 도구를 개발하고 출시했다.^[3] 재단의 데이터는 현재 인터넷 아카이브에 보관되어 있지만, 현재는 공개적으로 접근할 수 없다.^[10] 현재는 운영되지 않는다.^[3]

2. 4. 한국의 웹 아카이빙

한국에서는 국가기록원, 국립중앙도서관 등이 웹 아카이빙 사업을 진행하고 있다.^[9] 국가기록원은 공공기관 웹사이트를 중심으로 아카이빙을 수행하며, 기록물 관리의 투명성과 책임성을 강화하는 데 기여하고 있다. 하지만 민간 영역의 웹 아카이빙은 아직 초기 단계에 머물러 있으며, 관련 법/제도 정비가 필요한 상황이다.

3. 수집 방법

웹 아키비스트들은 일반적으로 HTML 웹 페이지, 스타일 시트, 자바스크립트, 이미지, 비디오를 포함한 다양한 유형의 웹 콘텐츠를 아카이빙한다. 또한 접근 시간, MIME 형식, 콘텐츠 길이와 같은 수집된 리소스에 대한 메타데이터도 아카이빙한다. 이 메타데이터는 아카이브된 컬렉션의 인증 및 출처를 확립하는 데 유용하다.

==== 크롤링 ====

웹 아카이빙은 크롤러를 사용하여 웹 페이지 수집을 자동화한다. 크롤러는 일반 사용자가 웹 브라우저로 웹 콘텐츠를 보는 것처럼 웹 페이지를 따라간다. 헤리티릭스는 아카이브 크롤링에 사용되는 대표적인 도구이다.

웹 아카이브는 HTML 웹 페이지, 스타일 시트, 자바스크립트, 이미지, 비디오 등 다양한 유형의 웹 콘텐츠를 수집한다. 또한 접근 시간, MIME 형식, 콘텐츠 길이와 같은 수집된 리소스에 대한 메타데이터도 아카이빙하여, 아카이브된 컬렉션의 인증 및 출처를 확립한다.

==== 거래적 아카이빙 ====

거래적 아카이빙은 웹 서버와 웹 브라우저 간에 발생하는 실제 트랜잭션을 수집하는 이벤트 중심 방식이다.^[12] 이는 특정 웹사이트에서 특정 날짜에 실제로 열람된 콘텐츠에 대한 증거를 보존하는 수단으로 주로 사용된다.^[12] 정보를 공개하고 보존해야 하는 법적 또는 규제 요구 사항을 준수해야 하는 조직에 특히 중요할 수 있다.^[12]

거래적 아카이빙 시스템은 일반적으로 웹 서버에 대한 모든 HTTP 요청과 응답을 가로채고, 각 응답을 필터링하여 중복 콘텐츠를 제거하고, 응답을 비트스트림으로 영구적으로 저장하여 작동한다.

==== 수동 아카이빙 ====

웹 아키비스트들은 일반적으로 HTML 웹 페이지, 스타일 시트, 자바스크립트, 이미지, 비디오를 포함한 다양한 유형의 웹 콘텐츠를 아카이빙한다. 또한 접근 시간, MIME 형식, 콘텐츠 길이와 같은 수집된 리소스에 대한 메타데이터도 아카이빙한다. 이 메타데이터는 아카이브된 컬렉션의 인증 및 출처를 확립하는 데 유용하다.

사용자가 URL을 지정하여 웹 페이지를 직접 저장하는 방식이다. 웹 어탁, WebCite, archive.today(이전 명칭 archive.is) 등이 수동 아카이빙 서비스를 제공한다. 인터넷 아카이브와 같은 자동 아카이빙 사이트에서도 수동 저장 기능을 제공하는 경우가 있다.

3. 1. 크롤링

웹 아카이빙은 크롤러를 사용하여 웹 페이지 수집을 자동화한다. 크롤러는 일반 사용자가 웹 브라우저로 웹 콘텐츠를 보는 것처럼 웹 페이지를 따라간다. 헤리티릭스는 아카이브 크롤링에 사용되는 대표적인 도구이다.

웹 아카이브는 HTML 웹 페이지, 스타일 시트, 자바스크립트, 이미지, 비디오 등 다양한 유형의 웹 콘텐츠를 수집한다. 또한 접근 시간, MIME 형식, 콘텐츠 길이와 같은 수집된 리소스에 대한 메타데이터도 아카이빙하여, 아카이브된 컬렉션의 인증 및 출처를 확립한다.

3. 2. 거래적 아카이빙

거래적 아카이빙은 웹 서버와 웹 브라우저 간에 발생하는 실제 트랜잭션을 수집하는 이벤트 중심 방식이다.^[12] 이는 특정 웹사이트에서 특정 날짜에 실제로 열람된 콘텐츠에 대한 증거를 보존하는 수단으로 주로 사용된다.^[12] 정보를 공개하고 보존해야 하는 법적 또는 규제 요구 사항을 준수해야 하는 조직에 특히 중요할 수 있다.^[12]

거래적 아카이빙 시스템은 일반적으로 웹 서버에 대한 모든 HTTP 요청과 응답을 가로채고, 각 응답을 필터링하여 중복 콘텐츠를 제거하고, 응답을 비트스트림으로 영구적으로 저장하여 작동한다.

3. 3. 수동 아카이빙

웹 아키비스트들은 일반적으로 HTML 웹 페이지, 스타일 시트, 자바스크립트, 이미지, 비디오를 포함한 다양한 유형의 웹 콘텐츠를 아카이빙한다. 또한 접근 시간, MIME 형식, 콘텐츠 길이와 같은 수집된 리소스에 대한 메타데이터도 아카이빙한다. 이 메타데이터는 아카이브된 컬렉션의 인증 및 출처를 확립하는 데 유용하다.

사용자가 URL을 지정하여 웹 페이지를 직접 저장하는 방식이다. 웹 어탁, WebCite, archive.today(이전 명칭 archive.is) 등이 수동 아카이빙 서비스를 제공한다. 인터넷 아카이브와 같은 자동 아카이빙 사이트에서도 수동 저장 기능을 제공하는 경우가 있다.

4. 기술적 과제와 한계

웹 아카이빙은 수집을 주로 크롤링에 의존하기 때문에 웹 크롤링의 어려움에 영향을 받는다.

로봇 배제 프로토콜에 의해 크롤러가 웹사이트의 일부에 대한 접근이 거부될 수 있다.
웹사이트의 대부분이 Deep Web으로 숨겨진 영역일 수도 있다. 예를 들어, 폼 뒤에 있을 결과 페이지 등은 크롤러가 링크를 따라 도달할 수 없기 때문에 딥 웹 영역이 된다.
웹 서버 중에는 크롤러에게 일반 웹 브라우저와는 다른 페이지 내용을 반환하는 경우가 있다. 이는 검색 엔진을 속여 사이트로의 트래픽을 늘리려는 시도로 사용되는 방법 중 하나이기도 하다.
크롤러 트랩이 크롤러가 페이지를 무한정 다운로드하게 할 수 있다 (예: 달력 등). 이 때문에 크롤러는 일반적으로 동적 페이지 다운로드 수의 상한이 설정되어 있다.

웹은 매우 거대하기 때문에 그 대부분을 수집하려면 상당한 컴퓨터 자원이 필요하다. 또한, 웹 자체 내용의 변화도 빠르기 때문에, 사이트 전체를 크롤러가 수집하기 전에 그 내용이 바뀌어 버리는 경우도 있다.

웹 아카이브가 대처해야 하는 것은 기술적인 측면뿐만 아니라, 지적 재산권과 같은 법적, 사회적 측면도 있다. Peter Lyman (2002)은 "웹은 일반적으로 퍼블릭 도메인 소스처럼 보이지만, 이는 저작권이 있는 정보이다. 따라서, 아키비스트는 웹을 복사할 법적 권리를 가지고 있지 않다"고 언급했다.^[13] 인터넷 아카이브와 같이 아카이브된 콘텐츠를 일반적으로 공개하고 있는 아카이브 중에는, 콘텐츠 소유자가 일반 공개를 원하지 않는 경우, 아카이브된 콘텐츠를 공개에서 제외하거나 삭제할 수 있도록 하고 있는 곳도 있다. 또한, 특정 장소에서만 접근 가능하게 하거나, 특정 정해진 이용 방법으로만 접근 가능하게 하고 있는 아카이브도 있다.

4. 1. 크롤링의 한계

웹 아카이빙은 웹 크롤링을 주요 수단으로 사용하므로 웹 크롤링의 어려움에 영향을 받는다.

robots 배제 프로토콜은 크롤러가 웹사이트의 일부에 접근하지 않도록 요청할 수 있다. 일부 웹 아키비스트는 이 요청을 무시하고 해당 부분을 크롤링할 수 있지만, 크롤러는 robots 배제 프로토콜에 의해 웹 사이트의 일부에 대한 접근이 거부 될 수 있다.
웹사이트의 상당 부분이 딥 웹에 숨겨져 있을 수 있다. 예를 들어, 크롤러가 웹 양식 뒤의 결과 페이지에 대한 링크를 따를 수 없는 경우, 결과 페이지가 딥 웹에 있을 수 있다.
크롤러 트랩(예: 캘린더)은 크롤러가 무한정의 페이지를 다운로드하게 할 수 있으므로, 크롤러는 일반적으로 크롤링하는 동적 페이지 수를 제한하도록 구성된다.
웹 서버 중에는 크롤러에게 일반 웹 브라우저와는 다른 페이지 내용을 반환하는 경우가 있다. 이는 검색 엔진을 속여 사이트로의 트래픽을 늘리려는 시도로 사용되는 방법 중 하나이기도 하다.
대부분의 아카이빙 도구는 페이지를 있는 그대로 캡처하지 않는다. 아카이빙 중에 광고 배너와 이미지가 종종 누락되는 것으로 관찰된다.

웹은 너무 방대해서 상당 부분을 크롤링하려면 많은 기술 리소스가 필요하다. 또한 웹은 매우 빠르게 변화하여 크롤러가 크롤링을 완료하기도 전에 웹사이트의 일부가 수정될 수 있다.

4. 2. 일반적인 한계

일부 웹 서버는 일반 브라우저 요청에 대한 응답과는 다른 페이지를 웹 아카이버 요청에 반환하도록 구성되어 있다. 이는 일반적으로 검색 엔진이 더 많은 사용자 트래픽을 웹사이트로 유도하도록 속이기 위해 수행되며, 책임 회피 또는 이를 표시할 수 있는 브라우저에만 향상된 콘텐츠를 제공하기 위해 자주 수행된다.^[13] 피터 라이먼은 "웹이 대중적으로 공공 영역 자원으로 간주되지만, 저작권이 있으며, 따라서 아키비스트는 웹을 복사할 법적 권리가 없다"고 말한다.^[13] 그러나 일부 국가의 국립 도서관은 법적 기탁의 연장선상에서 웹의 일부를 복사할 법적 권리를 가지고 있다.^[14]

WebCite, 인터넷 아카이브 또는 인터넷 메모리 재단과 같이 공개적으로 접근 가능한 일부 사립 비영리 웹 아카이브는 콘텐츠 소유자가 대중이 접근하지 않기를 원하는 보관된 콘텐츠를 숨기거나 제거할 수 있도록 허용한다. 다른 웹 아카이브는 특정 위치에서만 접근할 수 있거나 사용이 규제된다. WebCite는 구글의 캐싱에 대한 최근 소송에서 구글이 승소했다는 점을 언급한다.^[15]

웹 아카이빙은 수집을 주로 크롤링에 의존하기 때문에 웹 크롤링의 어려움에 영향을 받는다.

로봇 배제 프로토콜에 의해 크롤러가 웹사이트의 일부에 대한 접근이 거부될 수 있다.
웹사이트의 대부분이 Deep Web으로 숨겨진 영역일 수도 있다. 예를 들어, 폼 뒤에 있을 결과 페이지 등은 크롤러가 링크를 따라 도달할 수 없기 때문에 딥 웹 영역이 된다.
웹 서버 중에는 크롤러에게 일반 웹 브라우저와는 다른 페이지 내용을 반환하는 경우가 있다. 이는 검색 엔진을 속여 사이트로의 트래픽을 늘리려는 시도로 사용되는 방법 중 하나이기도 하다.
크롤러 트랩이 크롤러가 페이지를 무한정 다운로드하게 할 수 있다 (예: 달력 등). 이 때문에 크롤러는 일반적으로 동적 페이지 다운로드 수의 상한이 설정되어 있다.

웹은 매우 거대하기 때문에 그 대부분을 수집하려면 상당한 컴퓨터 자원이 필요하다. 또한, 웹 자체 내용의 변화도 빠르기 때문에, 사이트 전체를 크롤러가 수집하기 전에 그 내용이 바뀌어 버리는 경우도 있다.

웹 아카이브가 대처해야 하는 것은 기술적인 측면뿐만 아니라, 지적 재산권과 같은 법적, 사회적 측면도 있다. Peter Lyman (2002)은 "웹은 일반적으로 퍼블릭 도메인 소스처럼 보이지만, 이는 저작권이 있는 정보이다. 따라서, 아키비스트는 웹을 복사할 법적 권리를 가지고 있지 않다"고 언급했다. "인터넷 아카이브"와 같이 아카이브된 콘텐츠를 일반적으로 공개하고 있는 아카이브 중에는, 콘텐츠 소유자가 일반 공개를 원하지 않는 경우, 아카이브된 콘텐츠를 공개에서 제외하거나 삭제할 수 있도록 하고 있는 곳도 있다. 또한, 특정 장소에서만 접근 가능하게 하거나, 특정 정해진 이용 방법으로만 접근 가능하게 하고 있는 아카이브도 있다.

5. 법적, 윤리적 문제

2017년, 미국의 금융산업규제기관(FINRA)은 모든 디지털 커뮤니케이션 사업체가 기록을 보관해야 한다고 발표했다. 여기에는 웹사이트 데이터, 소셜 미디어 게시물 및 메시지가 포함된다.^[16]

웹 아카이빙은 수집을 주로 크롤링에 의존하기 때문에 웹 크롤링의 어려움에 영향을 받는다.

로봇 배제 프로토콜에 의해 크롤러가 웹사이트의 일부에 대한 접근이 거부될 수 있다.
웹사이트의 대부분이 Deep Web으로 숨겨진 영역일 수도 있다. 예를 들어, 폼 뒤에 있을 결과 페이지 등은 크롤러가 링크를 따라 도달할 수 없기 때문에 딥 웹 영역이 된다.
웹 서버 중에는 크롤러에게 일반 웹 브라우저와는 다른 페이지 내용을 반환하는 경우가 있다. 이는 검색 엔진을 속여 사이트로의 트래픽을 늘리려는 시도로 사용되는 방법 중 하나이기도 하다.
크롤러 트랩이 크롤러가 페이지를 무한정 다운로드하게 할 수 있다 (예: 달력 등). 이 때문에 크롤러는 일반적으로 동적 페이지 다운로드 수의 상한이 설정되어 있다.

웹은 매우 거대하기 때문에 그 대부분을 수집하려면 상당한 컴퓨터 자원이 필요하다. 또한, 웹 자체 내용의 변화도 빠르기 때문에, 사이트 전체를 크롤러가 수집하기 전에 그 내용이 바뀌어 버리는 경우도 있다.

웹 아카이브가 대처해야 하는 것은 기술적인 측면뿐만 아니라, 지적 재산권과 같은 법적, 사회적 측면도 있다. Peter Lyman (2002)은 "웹은 일반적으로 퍼블릭 도메인 소스처럼 보이지만, 이는 저작권이 있는 정보이다. 따라서, 아키비스트는 웹을 복사할 법적 권리를 가지고 있지 않다"고 언급했다. "인터넷 아카이브"와 같이 아카이브된 콘텐츠를 일반적으로 공개하고 있는 아카이브 중에는, 콘텐츠 소유자가 일반 공개를 원하지 않는 경우, 아카이브된 콘텐츠를 공개에서 제외하거나 삭제할 수 있도록 하고 있는 곳도 있다. 또한, 특정 장소에서만 접근 가능하게 하거나, 특정 정해진 이용 방법으로만 접근 가능하게 하고 있는 아카이브도 있다.

일부 저작권법은 웹 아카이빙을 저해할 수 있다. 예를 들어, Sci-Hub의 학술 아카이빙은 현대 저작권법의 범위를 벗어납니다. 이 사이트는 오픈 액세스 라이선스가 없는 학술 자료를 포함하여 학술 연구에 지속적인 접근을 제공하며, 이는 그렇지 않으면 유실될 수 있는 과학 연구의 아카이빙에 기여합니다.^[17]^[18]

5. 1. 저작권 문제

웹 콘텐츠는 저작권으로 보호되므로, 아키비스트는 웹을 복사할 법적 권리가 없는 경우가 많다. 피터 라이먼은 "웹은 대중적으로 공공 영역 자원으로 간주되지만, 저작권이 있다"고 지적한다. 일부 국가의 국립 도서관은 법적 기탁의 연장선상에서 웹의 일부를 복사할 법적 권한을 갖는다. Sci-Hub와 같은 학술 아카이빙은 저작권법의 범위를 벗어나는 경우가 있어 논란이 된다.^[17]^[18]

5. 2. 개인 정보 보호 및 망각될 권리

웹 아카이빙은 로봇 배제 프로토콜에 의해 크롤러가 웹사이트 일부에 대한 접근이 거부되거나, 웹사이트 대부분이 Deep Web으로 숨겨진 영역, 또는 크롤러 트랩 등으로 인해 어려움을 겪는다. 이와 더불어 웹 아카이빙은 지적 재산권과 같은 법적, 사회적 측면도 고려해야 한다. Peter Lyman (2002)은 "웹은 일반적으로 퍼블릭 도메인 소스처럼 보이지만, 이는 저작권이 있는 정보이다. 따라서, 아키비스트는 웹을 복사할 법적 권리를 가지고 있지 않다"고 언급했다.

웹 아카이빙은 개인 정보 보호 문제와 충돌할 수 있다. 공개적으로 접근 가능한 웹 아카이브는 콘텐츠 소유자가 원하지 않는 정보를 보존할 수 있기 때문이다. 일부 웹 아카이브는 콘텐츠 소유자의 요청에 따라 보관된 콘텐츠를 숨기거나 제거하는 기능을 제공하기도 한다.

5. 3. 한국의 법적 쟁점

한국에서는 저작권법, 개인정보보호법 등이 웹 아카이빙과 관련된 주요 법률이다. 공공기관의 기록물 관리에 관한 법률은 공공기관 웹사이트의 아카이빙에 대한 근거를 제공하지만, 민간 영역의 웹 아카이빙에 대한 법적 근거는 미흡하다. 웹 아카이빙 과정에서 개인 정보 침해 가능성과 '잊힐 권리'와의 충돌 문제도 제기되고 있다. Peter Lyman (2002)은 "웹은 일반적으로 퍼블릭 도메인 소스처럼 보이지만, 이는 저작권이 있는 정보이다. 따라서, 아키비스트는 웹을 복사할 법적 권리를 가지고 있지 않다"고 언급했다.^[16]

6. 한국의 웹 아카이빙 현황과 과제

6. 1. 공공 부문의 노력

6. 2. 민간 부문의 과제

6. 3. 개선 방안

참조

_[1] 웹사이트 Web Archiving https://netpreserve.[...] 2024-08-14
_[2] 간행물 Web Archiving Environmental Scan https://nrs.harvard.[...]
_[3] 간행물 The History of Web Archiving 2012-05
_[4] 웹사이트 Inside Wayback Machine, the internet's time capsule https://thehustle.co[...] 2018-09-28
_[5] 간행물 The evolution of web archiving 2017-09
_[6] 서적 The Handbook of Internet Studies https://onlinelibrar[...] Wiley 2011-04
_[7] 웹사이트 IWAW 2010: The 10th Intl Web Archiving Workshop https://www.wikicfp.[...] 2019-08-19
_[8] 웹사이트 IWAW - International Web Archiving Workshops https://bibnum.bnf.f[...] 2019-08-19
_[9] 웹사이트 About the IIPC https://netpreserve.[...] 2022-04-17
_[10] 웹사이트 Internet Memory Foundation : Free Web: Free Download, Borrow and Streaming https://archive.org/[...] Internet Archive 2020-07-21
_[11] 웹사이트 Web Archiving: Think the Web is Permanent? Think Again https://www.historya[...] History Associates 2019-06-04
_[12] 서적 Archiving websites: a practical guide for information management professionals Facet 2016-01-10
_[13] 문서 Lyman (2002)
_[14] 웹사이트 Legal Deposit {{!}} IIPC https://netpreserve.[...] 2017-01-31
_[15] 웹사이트 WebCite FAQ https://www.webcitat[...] 2018-09-20
_[16] 웹사이트 Social Media and Digital Communications https://www.finra.or[...] FINRA
_[17] 웹사이트 Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps https://www.theregis[...] 2020-09-10
_[18] 간행물 Open is not forever: A study of vanished open access journals
_[19] 웹사이트 Digital Preservation and Technology Timeline http://www.dpworksho[...] 2016-03-06
_[20] 웹사이트 International Internet Preservation Consortium (IIPC) https://warp.da.ndl.[...] 국립국회도서관#WARP 2023-02-02

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com