인터넷 아카이브
1. 개요
인터넷 아카이브는 1996년 브루스터 케일에 의해 설립된 비영리 단체로, 웹 아카이빙, 텍스트, 오디오, 비디오, 소프트웨어 등 다양한 디지털 자료를 수집하고 보존하는 것을 목표로 한다. 가장 잘 알려진 서비스는 웹 페이지의 과거 버전을 제공하는 웨이백 머신이며, Archive-It, 인터넷 아카이브 스칼라, 오픈 라이브러리 등 다양한 프로젝트를 운영한다. 인류의 지식과 유산을 보존하고자 하는 목표로 인해 알렉산드리아 도서관에 비유되기도 한다. 그러나 저작권 침해, 극단주의 콘텐츠 호스팅, 국가 안보 서한 반대, 사이버 공격 등으로 인해 논란이 발생하기도 했다.
이미지 준비중입니다.
| 설립자 | 브루스터 케일 |
|---|---|
| 위치 | 리치먼드 구 샌프란시스코, 캘리포니아, 미국 |
| 회장 | 브루스터 케일 |
| 설립일 | 1996년 5월 10일 |
| 직원 수 | 169명 (2022년) |
| 수익 | 3050만 달러 (2022년) |
| 자산 | 730만 달러 (2022년) |
| 서비스 | Archive-It Open Library 웨이백 머신 (2001년부터) Netlabels NASA 이미지 프렐링어 아카이브 |
| 웹사이트 종류 | 디지털 도서관 |
| 상업성 | 비영리 |
| 웹사이트 개설일 | 1996년 |
| 현재 상태 | 운영 중 |
| URL | 인터넷 아카이브 공식 웹사이트 Tor Hidden Service |
|---|---|
| 언어 | 영어 |
-
온라인 아카이브 -
위키리크스
위키리크스는 2006년 설립되어 줄리언 어산지가 주도한 비영리 조직으로, 정부와 기업의 기밀 정보를 폭로하는 것을 목표로 하지만 정보 진위 논쟁, 러시아 정부 연루 의혹, 법적 문제 등으로 평가가 엇갈린다. -
온라인 아카이브 -
Archive.today
Archive.today는 데니스 페트로프가 2012년에 설립한 웹 페이지 보관 및 검색 서비스로, 웹 페이지 스냅샷을 저장하여 과거 콘텐츠 접근을 제공하며 핵티비즘, 웹사이트 위변조 증명 등에 활용되지만 일부 국가에서 차단되기도 한다. -
전자 도서관 -
위키문헌
위키문헌은 저작권 만료 또는 공개 라이선스 자료를 디지털 형태로 수집, 보존하는 위키미디어 재단의 프로젝트로, ProofreadPage 확장 기능을 통해 스캔 자료의 교정 및 검증을 지원하며 여러 기관과의 협력을 통해 질적 향상을 도모하지만 신뢰성 문제에 대한 비판도 존재한다. -
전자 도서관 -
프랑스 국립도서관
프랑스 국립도서관은 1368년 왕립 도서관으로 시작하여 프랑스 혁명 이후 국립 도서관으로 변경되었으며, 소장품 확장을 거쳐 현재 리슐리외관과 프랑수아 미테랑관을 운영하며 디지털 도서관 갈리카를 통해 자료를 제공한다. -
1996년 설립 -
한국문학번역원
한국문학번역원은 한국 문학의 세계화를 위해 번역 및 출판 지원, 국제 교류, 번역 교육, 정보 서비스 등의 사업을 수행하는 문화체육관광부 산하 기관이다. -
1996년 설립 -
코스닥
코스닥은 대한민국의 중소·벤처기업 주식 시장으로, 기술 중심 기업의 자금 조달과 투자 기회 제공을 목표로 1996년 설립되어 성장과 침체를 거듭하며 제약, 바이오, IT 등 성장 산업군을 중심으로 대한민국 경제에서 중요한 역할을 수행하고 있다.
2. 역사
1996년 브루스터 케일이 인터넷 아카이브를 설립했다. 1996년 10월까지 월드 와이드 웹을 대량으로 보관하기 시작했으며, 2001년 웨이백 머신을 통해 보관된 콘텐츠를 일반 대중에게 공개했다.
1999년 말부터 웹 아카이브 외에 프렐린저 아카이브를 시작으로 컬렉션을 확장하여 현재는 텍스트, 오디오, 동영상, 소프트웨어 등도 포함한다.
2012년 8월, 130만 개 이상의 기존 파일과 새로 업로드된 모든 파일에 대해 비트토렌트를 파일 다운로드 옵션으로 추가했다.
2013년 11월 6일, 샌프란시스코 리치몬드 구역에 있는 인터넷 아카이브 본사에서 화재가 발생하여 장비와 자료 일부가 소실되었다.
2016년 11월, 도널드 트럼프 대통령 당선 이후 캐나다에 백업 아카이브 구축을 발표했다.
2020년에는 코로나19 팬데믹으로 인해 '국가 비상 도서관'을 운영하며 일시적으로 대출 제한을 완화했지만, 저작권 문제로 조기 종료했다.
2024년 10월 9일부터 10일에 걸쳐 DoS 공격을 받아 웨이백 머신을 포함한 archive.org 계열 사이트가 다운되었다. 10월 9일, 보안 웹사이트 Have I Been Pwned?는 9월 28일에 발생한 정보 유출로 인해 31,081,179개의 계정 정보가 유출되었음을 보고했으며, 인터넷 아카이브 운영자 브루스터 케일은 유출을 확인했다. DoS 공격과 데이터 유출의 관련 여부는 밝혀지지 않았다.
3. 주요 서비스
인터넷 아카이브는 다양한 디지털 자료를 수집하고 보존하는 비영리 단체이다. 주요 서비스로는 웨이백 머신, Archive-It, 인터넷 아카이브 스칼라, 일반 색인 등이 있다.
웨이백 머신은 인터넷 아카이브의 가장 대표적인 서비스로, 웹 페이지의 과거 모습을 볼 수 있게 해준다. 2024년 9월 5일 기준으로 8660억 개가 넘는 웹 페이지를 보관하고 있다.
Archive-It은 2006년에 만들어진 웹 아카이빙 구독 서비스로, 기관이나 개인이 디지털 콘텐츠 컬렉션을 구축하고 보존할 수 있도록 돕는다. 2014년 3월 기준으로, 46개 미국 주와 16개국에 275개 이상의 파트너 기관을 보유하고 있으며, 2,444개 이상의 공공 컬렉션에 대해 74억 개 이상의 URL을 캡처했다.
인터넷 아카이브 스칼라는 2020년 9월에 발표된 서비스로, 오픈 액세스 학술 저널을 보존하고 보관한다. 2,500만 개가 넘는 연구 논문 및 기타 학술 문서를 포함하고 있다.
일반 색인은 2021년에 발표된 학술 논문 컬렉션에 대한 공개 색인으로, 1억 7백만 건의 학술 자료를 제공한다.
3.1. 웨이백 머신
웨이백 머신(Wayback Machine)은 인터넷 아카이브가 제공하는 웹 아카이브 서비스이다. 인터넷 아카이브의 가장 대표적인 서비스로, "인터넷 아카이브"가 웨이백 머신과 같은 의미로 사용되기도 한다. 웨이백 머신을 이용하면 웹 페이지가 저장된 시점의 모습을 볼 수 있으며, "Save Page"에 URL을 입력하여 해당 페이지를 즉시 아카이브에 저장할 수도 있다.
웨이백 머신에서 볼 수 있는 웹 아카이브는 1996년 서비스 초기에는 알렉사 인터넷에서 제공된 데이터를 기반으로 했지만, 2010년대 후반부터는 인터넷 아카이브가 자체적으로 대규모 웹 크롤링을 시작하여 현재는 자체 수집 데이터가 절반 이상을 차지한다. 이전에는 데이터 수집부터 공개까지 6개월에서 1년이 걸렸지만, 자체 웹 크롤링과 2013년의 기술 혁신으로 수 시간에서 하루 만에 공개가 가능해졌다. 또한 "Save Page"로 저장된 페이지는 즉시 열람할 수 있다.
웨이백 머신이 보유한 데이터 양은 다음과 같이 증가해왔다.
2024년 9월 5일 기준으로, 8660억 개가 넘는 웹 페이지를 보관하고 있다. 이 데이터의 복사본은 알렉산드리아 신도서관에도 저장되어 있다.
하지만 웨이백 머신에서 과거 페이지를 보는 것은 여러 가지 이유로 불완전할 수 있다. 예를 들어, 로봇이 수집한 HTML 소스는 가공되어 원본과 다를 수 있고, 외부 파일(이미지, 자바스크립트 등)을 제대로 불러오지 못해 원래와 다르게 동작하는 경우가 많다. 특히 2010년 이전의 아카이브는 이미지가 표시되지 않는 경우가 대부분이다. 또한, 웹 크롤링의 기술적 제약이나 웹 페이지의 표시 기술 문제로 인해 페이지가 제대로 표시되지 않는 경우도 많다. 따라서 웨이백 머신은 특정 시점에 해당 페이지나 파일이 존재했다는 것을 보장하지 않는다.
"웨이백 머신"이라는 이름은 로키와 불윙클의 모험이라는 애니메이션에서 유래했다. 이 애니메이션에서 삐어보디 선생님과 조수 셔먼은 "웨이백 머신(WABAC machine)"이라는 타임머신을 사용하여 역사 속 사건에 간섭한다.
3.2. Archive-It
Archive-It은 2006년 초에 만들어진 웹 아카이빙 구독 서비스로, 기관 및 개인이 디지털 콘텐츠 컬렉션을 구축하고 보존하여 디지털 아카이브를 만들 수 있도록 지원한다. Archive-It을 통해 사용자는 문화 유산 보존을 위해 보존하려는 웹 콘텐츠의 캡처 또는 제외를 사용자 정의할 수 있다. 웹 애플리케이션을 통해 Archive-It 파트너는 아카이브된 컬렉션을 수집, 카탈로그화, 관리, 탐색, 검색 및 볼 수 있다.
아카이브된 웹 사이트는 캡처 후 7일 이내에 전체 텍스트 검색이 가능하다. Archive-It을 통해 수집된 콘텐츠는 WARC 파일로 캡처되어 저장된다. 기본 및 백업 사본은 인터넷 아카이브 데이터 센터에 저장된다. WARC 파일의 사본은 가입 파트너 기관에 지리적 중복 보존 및 저장 목적으로 해당 기관의 모범 사례 표준에 따라 제공될 수 있다. Archive-It을 통해 캡처된 데이터는 정기적으로 인터넷 아카이브의 일반 아카이브에 색인된다.
2014년 3월 기준으로, Archive-It은 46개 미국 주와 16개국에 275개 이상의 파트너 기관을 보유하고 있으며, 2,444개 이상의 공공 컬렉션에 대해 74억 개 이상의 URL을 캡처했다. Archive-It 파트너는 전기 문학 기구, 노스캐롤라이나 주립 기록 보관소 및 도서관, 스탠퍼드 대학교, 컬럼비아 대학교, 카이로 아메리카 대학교, 조지타운 법학 도서관 등을 포함한 대학 및 칼리지 도서관, 주 기록 보관소, 연방 기관, 박물관, 법률 도서관 및 문화 단체이다.
3.3. 인터넷 아카이브 스칼라
2020년 9월, 인터넷 아카이브는 오픈 액세스 학술 저널을 보존하고 보관하는 새로운 이니셔티브인 인터넷 아카이브 스칼라를 발표했다. 이 서비스의 전문 검색 색인은 인터넷 아카이브에 보존된 2,500만 개가 넘는 연구 논문 및 기타 학술 문서를 포함한다. 이 컬렉션은 18세기 저널의 디지털 사본부터 월드 와이드 웹에서 크롤링된 최신 오픈 액세스 회의록 및 사전 인쇄본에 이르기까지 망라한다.
4. 컬렉션
1996년 브루스터 카일이 설립한 인터넷 아카이브는 웹 아카이브 외에도 텍스트, 오디오, 동영상, 소프트웨어 등 다양한 디지털 자료를 수집하고 보존한다. NASA 이미지 아카이브, Archive-It, 오픈 라이브러리 등 여러 프로젝트도 운영한다.
인터넷 아카이브의 사명은 다음과 같다.
인터넷 아카이브는 주로 기증을 통해 자료를 얻으며, 통제된 디지털 대여 (CDL) 이론에 따라 최초 판매 원칙에 의거하여 한 번에 한 명의 이용자에게 자료를 대여한다.
웹 아카이브 외에도, 인터넷 아카이브는 미국에서 퍼블릭 도메인이거나 크리에이티브 커먼즈 라이선스 등 재배포를 허용하는 라이선스에 따라 방대한 디지털 미디어 컬렉션을 유지 관리한다. 미디어는 미디어 유형(동영상, 오디오, 텍스트 등)별로 컬렉션으로 구성되며, 다양한 기준에 따라 하위 컬렉션으로 구성된다. 각 주요 컬렉션에는 일반 대중의 기증이 저장되는 "커뮤니티" 하위 컬렉션(구 "오픈 소스")이 있다.
4.1. 텍스트 컬렉션
인터넷 아카이브는 440만 권 이상의 디지털화된 서적을 제공한다. 2013년 7월 기준으로, 5개국에 33개의 스캔 센터를 운영하며 하루에 약 1,000권의 책을 디지털화하여 총 2백만 권 이상의 책을 보유하고 있었으며, 다른 기관에서 디지털화하여 제공한 자료를 포함하면 총 440만 권의 책을 보유하고 있었다. 당시 사용자들은 매달 1,500만 건 이상의 다운로드를 수행했다.
다른 기관에서 디지털화된 자료에는 2006년에서 2008년 사이에 마이크로소프트가 라이브 서치 북스 프로젝트를 통해 기증한 30만 권 이상의 책이 포함되어 있으며, 이 프로젝트는 인터넷 아카이브에 직접 기증된 재정 지원 및 스캔 장비도 포함했다. 2008년 5월 23일, 마이크로소프트는 라이브 북 검색 프로젝트를 종료하고 더 이상 책을 스캔하지 않으며, 남은 스캔 장비를 이전 파트너에게 기증할 것이라고 발표했다.
2007년 10월경부터는 아카이브 사용자들이 퍼블릭 도메인 책들을 구글 북 검색에서 업로드하기 시작했다. 2013년 11월 기준으로, 아카이브 컬렉션에는 90만 권 이상의 구글 디지털화 책이 있었으며, 이 책들은 구글 워터마크가 없는 것을 제외하고는 구글에서 발견되는 사본과 동일하며 제한 없이 사용 및 다운로드할 수 있다. 브루스터 칼은 2013년에 이 아카이브 노력은 애런 스워츠에 의해 조정되었다고 밝혔다. 그들은 퍼블릭 도메인에 대한 공공 접근을 보장하기 위해 노력했고, 아카이브는 이 항목들이 구글로 귀속되고 링크되도록 했으며, 구글은 불만을 제기하지 않았다.
책 외에도 아카이브는 미국 연방 법원의 PACER 전자 문서 시스템에서 RECAP 웹 브라우저 플러그인을 통해 업로드된 4백만 건 이상의 법원 의견, 법률 요약 또는 전시물을 무료로 익명으로 공개한다. 이러한 문서는 연방 법원 유료 서비스 뒤에 보관되어 있었다. 아카이브에서는 2013년까지 6백만 명 이상이 이 문서에 접근했다.
아카이브의 BookReader 웹 앱은 웹사이트에 내장되어 있으며, 단일 페이지, 양면 페이지 및 축소판 모드와 같은 기능이 있다. 전체 화면 모드, 페이지 확대 고해상도 이미지, 페이지 넘기기 애니메이션도 지원한다.
오픈 라이브러리 프로젝트를 통해 지금까지 출판된 모든 책에 대한 웹 페이지를 구축하고, 무료 전자책 대출 서비스를 제공한다. 약 160만 권의 저작권이 소멸된 저작물 책과 현재 출판된 저작권이 있는 책들을 포함하고 있으며, 이 중 많은 책들이 완전히 읽고, 다운로드할 수 있으며, 전문 검색이 가능하다. 웹사이트에서 무료로 등록한 후, 6개국 1,000개 이상의 도서관 파트너와 협력하여 공공 도메인이 아닌 647,784권 이상의 책에 대해 2주간의 전자책 통제된 디지털 대출 프로그램을 제공한다.
2024년 10월, 인터넷 아카이브는 라이덴 대학교 도서관과 계약을 체결하여 도서관에 보관되어 있던 40만 권의 미분류된 외국 학위 논문을 디지털화하여 온라인에서 접근할 수 있도록 하였다. 이 컬렉션에는 닐스 보어, 마리 퀴리, 에밀 뒤르켐, 알베르트 아인슈타인, 오토 한, 카를 융, J. 로버트 오펜하이머, 막스 플랑크, 루이지 피란델로, 구스타프 슈트레제만 및 막스 베버의 논문이 포함되어 있다.
수많은 대형 기관들이 인터넷 아카이브가 수백만 권의 스캔된 출판물(텍스트 항목)을 제공하는 데 도움을 주었다. 대량의 텍스트를 디지털화한 후원 기관으로는 토론토 대학교의 로바츠 도서관, 앨버타 대학교 도서관, 오타와 대학교, 미국 의회 도서관, 보스턴 도서관 컨소시엄 회원 도서관, 보스턴 공립 도서관, 프린스턴 신학대학 도서관 등이 있다.
2017년, MIT Press는 아카디아 펀드의 재정적 지원을 받아 인터넷 아카이브가 이 출판사의 과거 출판물에서 책을 디지털화하고 대여하는 것을 승인했다. 1년 후, 인터넷 아카이브는 아카디아 펀드로부터 추가 자금을 지원받아 다른 일부 대학 출판사에 인터넷 아카이브와 협력하여 책을 디지털화하도록 초청했으며, 이 프로젝트는 "대학 출판물 도서 잠금 해제"라고 불렸다.
미국 의회 도서관은 인터넷 아카이브에서 무료로 디지털화된 책을 가리키는 수많은 핸들 시스템 식별자를 생성했다.
4.2. 오디오 아카이브
오디오 아카이브는 음악, 오디오북, 뉴스 방송, 옛날 라디오 쇼, 팟캐스트 및 다양한 기타 오디오 파일을 포함한다. 현재 1,500만 개가 넘는 무료 디지털 녹음이 있다. ARChive of Contemporary Music의 디렉터인 B. 조지가 사운드 컬렉션을 큐레이팅한다.
하위 컬렉션은 다음과 같다.
* Live Music Archive: 독립 음악가, Grateful Dead와 같이 공연 녹음에 대해 허용적인 규칙을 가진 기성 아티스트 및 음악 앙상블, The Smashing Pumpkins의 17만 개가 넘는 콘서트 녹음을 포함한다. 조던 제본은 워렌 제본의 콘서트 녹음 자료(1976년부터 2001년까지 126개의 콘서트, 1,137곡) 컬렉션을 인터넷 아카이브에 호스팅하도록 허락했다.
* The Great 78 Project: 1880년부터 1960년 사이의 다양한 수집가와 기관에서 기증받은 250,000개의 78rpm 싱글 음반 (500,000곡)을 디지털화하는 것을 목표로 한다. Archive of Contemporary Music 및 George Blood Audio와 협력하여 개발되었다.
* 넷라벨: 스트리밍 방식으로 제공되며 다운로드가 가능한, 자유롭게 배포 가능한 음악 컬렉션을 제공한다. 일반적으로 가상 음반 레이블의 크리에이티브 커먼즈 라이선스 카탈로그를 포함한다.
오디오 아카이브에는 동영상, 서적, 녹음 자료 외에도 퍼블릭 도메인에 있거나 크리에이티브 커먼즈 라이선스로 제공되는 자료가 많다. 음악 부문에는 콘서트 연주 녹음을 허가한 아티스트나 연주가(그레이트풀 데드, 스트링 치즈 인시던트, 토드 더 웻 스프로켓, 311, 푸가지 등)의 음원과 함께, 독립 뮤지션의 음원도 다수 포함되어 있다.
아마추어 무선 통신 전송 기록 보존 프로젝트는 아마추어 무선 디지털 통신 재단(Amateur Radio Digital Communications foundation)의 자금 지원을 받는다.
4.3. 동영상 컬렉션
인터넷 아카이브는 영화, 뉴스 영상, 교육 영상, 홈 비디오 등 다양한 동영상 자료를 제공한다. 이 컬렉션에는 업로더가 미국에서 퍼블릭 도메인에 있거나 크리에이티브 커먼즈 라이선스와 같이 재배포를 허용하는 라이선스에 따라 방대한 디지털 미디어 컬렉션을 유지 관리하고 있다. 미디어는 미디어 유형(동영상, 오디오, 텍스트 등)별로 컬렉션으로 구성되며 다양한 기준에 따라 하위 컬렉션으로 구성된다.
이 컬렉션의 주요 하위 범주는 다음과 같다.
* 매치니마 아카이브: 컴퓨터 게임, 게임 엔진 또는 소프트웨어 엔진을 샌드박스 모드로 사용하여 동영상을 만들거나, 연극을 재현하거나, 프레젠테이션 또는 기조 연설을 게시하는 디지털 예술 형식의 매치니마 비디오를 호스팅한다. 루스터 티스 및 Machinima.com과 같은 인터넷 게시자와 독립 제작자의 다양한 매치니마 영화를 수집한다.
* 마이크로필름 컬렉션: 시카고 대학교 도서관, 일리노이 대학교 어바나-샴페인, 앨버타 대학교, 앨런 카운티 공공 도서관, 국립 기술 정보 서비스(National Technical Information Service)를 포함한 다양한 도서관의 약 16만 개의 마이크로폼 자료를 담고 있다.
* Moving image collection: 뉴스 영화, 고전 만화, 친전쟁 및 반전 선전물, 비디오 셀러 컬렉션, 스킵 엘스하이머의 "A.V. 긱스" 컬렉션, 초기 텔레비전 프로그램, 프렐린저 아카이브의 광고, 교육, 산업 영화, 아마추어 및 홈 영화 컬렉션과 같은 일시적인 자료가 포함되어 있다.
* 브릭필름 컬렉션: 레고 브릭으로 촬영된 스톱 모션 애니메이션을 담고 있으며, 일부는 장편 영화의 "리메이크"이다.
* 2004년 선거 컬렉션: 2004년 미국 대통령 선거와 관련된 비디오 자료를 공유하기 위한 초당파적 공공 자원이다.
* FedFlix 컬렉션: 국립 기술 정보 서비스와 Public.Resource.Org 간의 합작 투자 NTIS-1832로, "훈련 영화에서 역사, 국립 공원에서 미국 소방 아카데미 및 우편 검사관에 이르기까지 미국 정부의 최고의 영화"를 제공한다.
* 독립 뉴스 컬렉션: 2001년 인터넷 아카이브의 세계 전쟁 경쟁과 같은 하위 컬렉션이 포함되어 있으며, 참가자들은 "역사에 대한 접근이 왜 중요한지"를 보여주는 단편 영화를 제작했다. 가장 많이 다운로드된 비디오 파일 중에는 파괴적인 2004년 인도양 지진 및 쓰나미의 목격자 기록이 있다.
* 9.11 텔레비전 아카이브: 2001년 9월 11일 9.11 테러 공격이 라이브 텔레비전으로 전개되었을 때 세계 주요 텔레비전 네트워크의 아카이브 영상이 포함되어 있다.
4.4. 이미지 컬렉션
이 컬렉션은 350만 개가 넘는 항목을 포함하고 있다. 주요 하위 컬렉션으로는 커버 아트 아카이브, 메트로폴리탄 미술관 - 갤러리 이미지, NASA 이미지, 점령하라 월 스트리트 플리커 아카이브, USGS 지도 등이 있다.
* 커버 아트 아카이브(Cover Art Archive): 뮤직브레인즈와 인터넷 아카이브가 공동으로 진행하는 프로젝트로, 인터넷 상의 표지 예술 이미지를 보존하는 것을 목표로 한다. 2021년 4월 기준으로 140만 개 이상의 항목을 포함하고 있다.
* 메트로폴리탄 미술관 갤러리 이미지: 메트로폴리탄 미술관에서 제공하는 이미지들로 구성된 컬렉션으로, 14만 개 이상의 항목을 포함하고 있다.
* NASA 이미지(NASA Images): 미국 항공우주국(NASA)과 인터넷 아카이브 간의 우주법 협약을 통해 생성된 아카이브이다. NASA의 이미지, 비디오, 오디오 컬렉션을 단일 검색 가능한 리소스로 제공하여 대중에게 공개한다. 인터넷 아카이브 NASA 이미지 팀은 모든 NASA 센터와 긴밀히 협력하여 컬렉션을 지속적으로 추가하고 있다. nasaimages.org 사이트는 2008년 7월에 출시되었으며, 2012년 호스팅 종료 시까지 10만 개 이상의 항목을 온라인에 게시했다.
* 월가를 점령하라 플리커 아카이브(Occupy Wall Street Flickr archive): 월가를 점령하라 운동과 관련된 플리커(Flickr)의 사진들을 담고 있으며, 크리에이티브 커먼즈 라이선스 하에 있다. 15,000개 이상의 항목을 포함하고 있다.
* USGS 지도: 리브르 맵 프로젝트에서 제공하는 59,000개 이상의 항목을 포함하고 있다.
4.5. 소프트웨어 컬렉션
인터넷 아카이브는 컴퓨터 잡지, 서적, 셰어웨어 디스크, FTP 사이트, 비디오 게임 등 50년에 걸친 컴퓨터 하드웨어 역사를 아우르는 "세계 최대의 온라인 역사적 소프트웨어 컬렉션"(World's largest online historical software collection영어)을 테라바이트 단위로 보유하고 있다. 인터넷 아카이브는 이를 보존하기 위해 "빈티지 소프트웨어"(vintage software영어) 아카이브를 만들었다. 이 프로젝트는 미국 디지털 밀레니엄 저작권법에 대한 면제를 옹호하여 복제 방지를 우회할 수 있도록 했으며, 이는 미국 저작권청에서 2003년에 3년 동안 승인했다. 아카이브는 면제가 "도서관 또는 아카이브에서 출판된 디지털 작품의 보존 또는 아카이브 복제 목적으로만" 사용되기 때문에 소프트웨어를 다운로드할 수 있도록 제공하지 않는다. 미국 의회 도서관은 2006년에 면제를 갱신했고, 2009년에는 추가적인 규칙 제정이 있을 때까지 무기한 연장했다. 도서관은 2010년에 만료일이 없는 "최종 규칙"으로 면제를 재확인했다. 2013년에 인터넷 아카이브는 웹 브라우저를 통해 MESS를 사용하여 일부 비디오 게임(예: 아타리 2600 게임 E.T. the Extra-Terrestrial)을 플레이할 수 있도록 제공하기 시작했다. 2014년 12월 23일부터 인터넷 아카이브는 브라우저 기반의 DOSBox 에뮬레이션을 통해 수천 개의 DOS/PC 게임을 "학문적 및 연구 목적으로만" 제공하고 있다. 2020년 11월, 아카이브는 Ruffle이라는 어도비 플래시용 새로운 에뮬레이터를 도입하고, 모든 컴퓨터 시스템에서 플래시 플러그인 종료일인 2020년 12월 31일 이전에 플래시 애니메이션과 게임을 아카이브하기 시작했다.
4.6. 기타 컬렉션
열린 교육 자료는 archive.org의 디지털 컬렉션이다. 이 컬렉션에는 미국과 중국의 대학교에서 제공하는 수백 개의 무료 강좌, 비디오 강의 및 보충 자료가 포함되어 있다. 이 컬렉션의 기여자는 ArsDigita University, Hewlett 재단, MIT, 몬터레이 연구소, 나로파 대학교이다.
2012년 9월, 인터넷 아카이브는 미국 전국 뉴스 프로그램을 검색할 수 있는 TV 뉴스 검색 및 대여 서비스를 시작했다. 이 서비스는 폐쇄 자막 기록을 기반으로 하며 사용자가 30초 분량의 비디오 클립을 검색하고 스트리밍할 수 있도록 한다. 서비스 시작 당시에는 "미국 전국 네트워크와 샌프란시스코 및 워싱턴 D.C. 방송국에서 3년 동안 수집된 350,000개의 뉴스 프로그램"을 포함하고 있었다. 칼레에 따르면 이 서비스는 텔레비전 네트워크 뉴스 프로그램의 유사한 라이브러리인 밴더빌트 텔레비전 뉴스 아카이브에서 영감을 받았다. 스트리밍 비디오에 대한 접근을 구독하는 대학과 관련된 개인으로 제한하는 밴더빌트와 달리 TV 뉴스 검색 및 대여는 스트리밍 비디오 클립에 대한 공개 접근을 허용한다. 2013년, 아카이브는 필라델피아 여성 마리온 스토크스의 유산으로부터 "약 40,000개의 잘 정리된 테이프"를 추가로 기증받았다. 스토크스는 "VHS와 베타맥스 기계로 필라델피아와 보스턴에서 35년 이상 TV 뉴스를 녹화했다."
브루클린 박물관 컬렉션은 약 3,000개의 항목을 포함하고 있으며, 이는 브루클린 박물관에서 기증받은 것이다. 2020년 12월, 릴리안 미켈슨의 영화 연구 도서관이 아카이브에 기증되었다.
5. 운영 및 기술
인터넷 아카이브는 미국 캘리포니아주 샌프란시스코에 본사를 둔 501(c)(3) 비영리 단체이다. 2019년 기준으로 웹 크롤링 서비스 수익, 파트너십, 보조금, 기부금, 칼레-오스틴 재단을 통해 연간 37의 예산을 확보했다. 정기적인 자금 모금 캠페인도 진행하는데, 2019년 12월에는 600만 달러 기부를 목표로 했다.
--
웹사이트 서버의 운영 체제로 Ubuntu를 사용한다. 1996년부터 2009년까지는 미군 기지였던 샌프란시스코 프레시디오에 본사가 있었으며, 2009년부터는 샌프란시스코 펀스턴 애비뉴 300번지에 있는 전 크리스천 사이언스 교회 건물에 본사를 두고 있다. 2019년 현재 전 세계 100명의 유료 운영자가 스캔 작업을 수행한다.
캘리포니아주 샌프란시스코, 레드우드 시티, 리치몬드에 데이터 센터를 두고 있다. 데이터 손실 위험을 줄이기 위해 이집트 알렉산드리아 도서관과 암스테르담 시설에도 컬렉션 사본을 보관한다.
2009년까지는 HDD 4대를 탑재한 800대의 리눅스 클러스터로 운영했지만, 2009년 봄에 썬 마이크로시스템즈(Sun Microsystems)의 Sun Fire X4500 63대 클러스터로 변경되었다. OS는 Solaris 10이며, 1대당 1테라바이트 HDD를 48대 탑재(총 3페타바이트)했고, 파일 시스템은 ZFS를 채용했다. 시설에는 전용 Sun Modular Datacenter를 사용했으며, 모든 데이터가 수송용 컨테이너 하나에 들어 있었다. 이후 점차 Petabox라고 불리는 자체 설계의 랙 마운트형 리눅스 서버 클러스터로 대체되었고, 현재는 Petabox의 제2세대가 가동 중이다.
6. 논란 및 법적 분쟁
2024년 5월 27일부터 며칠 동안 인터넷 아카이브는 분산 서비스 거부(DDoS) 공격을 받아 서비스 이용에 차질을 겪었다. SN_BLACKMETA라는 해커 그룹이 공격의 배후를 자처했으며, 이들은 Anonymous Sudan과 관련이 있을 가능성이 있다. 이 사건은 2023년 대영 도서관 사이버 공격과 비교되기도 한다.
2024년 10월 9일부터는 아카이브 보관인 제이슨 스콧과 보안 연구원 스콧 헬메를 포함한 인터넷 아카이브 팀이 DDoS 공격, 사이트 변조, 데이터 유출을 확인했다. 자칭 해커 활동가 그룹인 SN_BLACKMETA가 다시 공격의 배후를 주장했다. 이들은 "인터넷 아카이브가 나무 막대기로 운영되고 있으며 끊임없이 파괴적인 보안 위협을 겪을 지경"이라고 조롱하며, HIBP에서 3,100만 명의 사용자 정보가 유출되었다고 주장했다. 실제로 2024년 9월 28일에 작성된 "ia_users.sql" 파일에서 약 3,100만 개의 사용자 계정이 유출된 것으로 보고되었으며, 공격자들은 사용자의 이메일 주소와 Bcrypt 해시된 비밀번호를 훔쳤다.
10월 11일, 칼레는 데이터가 안전하며 서비스를 "몇 주가 아닌 며칠 내"에 정상화할 것이라고 밝혔다. 10월 13일, 웹 페이지 보관은 일시 중단되었고, 웨이백 머신은 읽기 전용으로 복원되었다. 10월 14일, 브루스터 칼레는 "[Wayback Machine] 볼륨이 정상으로 돌아왔습니다: 초당 1,500건의 요청"이라고 말했다. 10월 20일에는 위협 행위자들이 API 토큰을 훔치고 인터넷 아카이브의 젠데스크 이메일 지원 플랫폼을 침해하기도 했다.
10월 21일, 인터넷 아카이브는 읽기 전용 방식으로 다시 온라인 상태가 되었고, 10월 23일에는 archive.org, 웨이백 머신, Archive-It, Open Library 서비스가 모두 재개되었지만, 로그인 등의 일부 기능은 며칠 후에나 사용 가능하게 되었다. 10월 25일, 로그인 기능이 복구되면서 사이트가 정상화되었다.
6.1. 국가 안보 서한 반대
인터넷 아카이브는 미국 연방 수사국(FBI)의 국가 안보 서한(사용자 정보 요구)에 대해 두 차례 이의를 제기하여 모두 승소하였다.
* 2008년 5월 8일, 인터넷 아카이브는 첫 번째 국가 안보 서한에 대해 이의를 제기했다.
* 2016년 11월 28일, 두 번째 국가 안보 서한에 대해서도 이의를 제기했다.
6.2. 극단주의 콘텐츠 호스팅
인터넷 아카이브는 업로드를 가볍게 관리하기 때문에 극단주의자들이 가치 있게 여길 수 있는 자료를 포함하고 있으며, 이들이 블랙리스트를 회피하기 위해 사이트를 사용할 수 있다. 2018년 2월, 대(對)극단주의 프로젝트(Counter Extremism Project)는 아카이브가 앨런 헤닝의 참수 장면을 포함한 테러 관련 동영상을 호스팅하고 있으며, 해당 동영상에 대한 요청에 응하지 않았다고 밝혔다. 2018년 5월, 사이버 보안 회사 플래시포인트(Flashpoint)에서 발표한 보고서에 따르면 이슬람 국가가 인터넷 아카이브를 사용하여 선전물을 공유하고 있다고 한다. 이에 대해 인터넷 아카이브의 크리스 버틀러는 테러에 대한 정보 공유와 관련하여 미국 및 EU 정부와 정기적으로 대화하고 있다고 답변했다.
2019년 4월, 프랑스 경찰의 의뢰를 받아 유로폴은 인터넷 아카이브에 "테러 선전" 사이트 550개를 삭제해 줄 것을 요청했다. 그러나 아카이브는 해당 보고서가 지적하는 내용에 대한 정보가 잘못되었거나, 조직이 준수하기에는 너무 광범위하다는 이유로 요청을 거부했다. 2021년 7월 14일, 인터넷 아카이브는 유로폴과 공동으로 테러 관련 동영상을 겨냥한 "의뢰 조치의 날"을 개최했다.
2021년 기사에서는 지하디스트들이 인터넷 아카이브를 테러 동영상의 "데드 드롭"으로 정기적으로 사용한다고 보도했다. 2022년 1월, 전 UCLA 강사의 800페이지 분량의 선언문이 인터넷 아카이브에 업로드되었는데, 여기에는 인종차별적 내용과 UCLA 직원에 대한 위협이 담겨 있었다. 해당 선언문은 아키비스트가 이러한 문서를 보존해야 하는지 여부에 대한 논의가 오가는 가운데 일주일 만에 인터넷 아카이브에서 삭제되었다. 2022년의 또 다른 논문에서는 "인터넷 아카이브에 테러, 극단주의, 인종차별 자료가 놀라울 정도로 많이 존재한다"고 밝혔다.
2023년 논문에서는 신나치주의자들이 신입 회원을 위해 온라인에서 공개적으로 이용 가능한 자료의 링크를 수집한다고 보고했다. 인터넷 아카이브는 다른 웹사이트에서는 허용되지 않는 업로드된 텍스트를 호스팅하므로, 아카이브에 있는 나치 및 신나치 서적(예: 터너 일기)이 이러한 목록에 자주 등장한다. 이러한 목록에는 백인 우월주의적 견해가 더 주류를 이루던 시대에 만들어진 오래된 퍼블릭 도메인 자료도 포함되어 있다.
6.3. 저작권 침해 소송
아셰트, 하퍼콜린스, 존 와일리 & 선즈, 펭귄 랜덤 하우스 등 4개의 주요 도서 출판사는 2020년 인터넷 아카이브가 운영하는 통제된 디지털 대출 프로그램과 코로나19 범유행 기간 동안 운영된 국가 비상 도서관에 대해 저작권 침해 소송을 제기했다. 저작권 연합의 지원을 받은 원고들은 인터넷 아카이브의 행위가 "고의적인 대량 저작권 침해"라고 주장했다.
2023년 3월 24일, 법원은 출판사의 손을 들어주며 인터넷 아카이브의 국가 비상 도서관 운영이 공정 사용에 해당하지 않는다고 판결했다. 이후 인터넷 아카이브는 출판사에 비공개 금액을 지불하는 합의를 했지만, 판결에 불복하여 항소했다. 2024년 9월 4일, 미국 제2 순회 항소 법원은 인터넷 아카이브가 공정 사용 원칙에 의해 보호받는다는 주장을 "설득력이 없다"고 하면서 지방 법원의 판결을 지지했다.
2023년 8월에는 유니버설 뮤직 그룹(UMG), 소니 뮤직, 콩코드 등 음악 산업 기업들이 인터넷 아카이브의 Great 78 Project를 상대로 저작권 침해 소송을 제기했다. 이 프로젝트는 1972년 이전 78회전 축음기 레코드를 디지털화하여 보존하는 사업이었는데, 2018년 음악 현대화 법(MMA) 통과로 1972년 이전 음반도 저작권 보호 대상이 되었다.
출판사들은 소송에 명시된 약 4,142곡에 대해 법정 손해 배상을 청구하여 최대 621의 벌금이 부과될 수 있다. 인터넷 아카이브는 원본 음반의 음질이 조악하고, 다운로드 수가 적으며, 컬렉션의 95% 이상이 다른 곳에서 구하기 어렵다는 점을 들어 공정 사용이라고 주장했지만, 원고 측은 "소송을 위해 발명된 공정 사용 이론"이라고 반박했다.
6.4. 기타 논란
2002년 후반, 인터넷 아카이브는 사이언톨로지 비판 사이트 여러 개를 웨이백 머신에서 삭제했다. 삭제 당시 오류 메시지에는 "사이트 소유자의 요청에 의한 것"이라는 문구가 표시되었지만, 이후 사이언톨로지 교회 변호사의 삭제 요구에 따른 것으로 밝혀졌다. 이 삭제 요구의 법적 근거는 불분명하며, 실제 사이트 소유자가 삭제를 요청한 것은 아니었다.
2005년 11월에는 그레이트풀 데드 콘서트 자료의 무료 다운로드가 중단되었다. 뉴욕 타임스 기사에 따르면, 존 페리 바로우는 이 변경의 원인이 밥 위어, 미키 하트, 빌 크로이츠만 등 밴드 전 멤버 3명이라고 언급했다. 밴드 창립 멤버인 필 레쉬는 2005년 11월 30일 자신의 개인 웹사이트에 이 변경에 대한 의견을 게시하며 "그레이트풀 데드의 모든 공연이 추수감사절 직전에 Archive.org에서 내려갔다는 것을 알게 되었고, 이 결정 과정에 참여하지 않았으며, 공연이 삭제될 것이라는 통보도 받지 못했다"고 밝혔다. 또한 "이 음악이 그레이트풀 데드의 유산이라고 생각하며, 어떻게든 원하는 모든 사람에게 제공될 수 있기를 바란다"고 덧붙였다. 브루스터 칼레는 11월 30일 포럼 게시물을 통해 밴드 멤버 간 합의 내용을 요약했는데, 관람객 녹음은 다운로드 및 스트리밍이 가능하지만, 믹싱 콘솔 녹음은 스트리밍만 가능하다는 것이었다. 이후 콘서트 자료는 다시 추가되었다.
2016년 2월, 인터넷 아카이브 사용자들은 1988년부터 2012년까지 발행된 닌텐도의 공식 게임 및 제품 잡지인 닌텐도 파워의 디지털 사본을 보관하기 시작했다. 140호까지 수집되었지만, 닌텐도는 2016년 8월 8일 아카이브를 삭제했다. 닌텐도는 게임 웹사이트 폴리곤에 "닌텐도는 자사의 캐릭터, 상표 및 기타 콘텐츠를 보호해야 한다. 닌텐도의 지적 재산 무단 사용은 이를 보호하고 보존하거나 새로운 프로젝트에 사용할 수 있는 능력을 약화시킬 수 있다"고 밝혔다.
2017년 8월, 인도 정부의 통신부는 마드라스 고등법원의 두 건의 법원 명령에 따라 인터넷 아카이브를 비롯한 다른 파일 공유 웹사이트를 차단했다. 두 편의 볼리우드 영화 사본이 해당 서비스를 통해 공유되었다는 주장에 따른 저작권 침해 우려 때문이었다. 아카이브의 HTTP 버전은 차단되었지만, HTTPS 프로토콜을 사용하면 계속 접근할 수 있었다.
--
7. 기타 서비스
인터넷 아카이브는 미국에서 운영되는 501(c)(3) 비영리 단체이다. 2019년 기준으로 웹 크롤링 서비스 수익, 다양한 파트너십, 보조금, 기부금, 칼레-오스틴 재단을 통해 연간 37의 예산을 확보했다. 인터넷 아카이브는 정기적인 자금 모금 캠페인도 진행하는데, 2019년 12월 캠페인에서는 6의 기부금을 목표로 했다. 웹사이트 서버의 운영 체제로는 Ubuntu를 사용한다.
인터넷 아카이브는 캘리포니아주 샌프란시스코에 본사를 두고 있다. 1996년부터 2009년까지는 미군 기지였던 샌프란시스코 프레시디오에 본사가 있었으며, 2009년부터는 샌프란시스코 펀스턴 애비뉴 300번지에 있는 전 크리스천 사이언스 교회 건물에 본사를 두고 있다. 2019년 현재 전 세계 100명의 유료 운영자가 스캔 작업을 수행하고 있으며, 이전에는 대부분의 직원이 도서 스캔 센터에서 근무했다. 인터넷 아카이브는 샌프란시스코, 레드우드 시티, 리치몬드 등 캘리포니아 3개 도시에 데이터 센터를 두고 있다. 또한 데이터 손실 위험을 줄이기 위해 이집트의 알렉산드리아 도서관과 암스테르담의 시설 등 더 먼 지역에 컬렉션의 일부 사본을 보관하고 있다.
인터넷 아카이브는 국제 인터넷 보존 컨소시엄의 회원이며, 2007년 캘리포니아주로부터 공식적으로 도서관으로 지정되었다.
8. 관련 프로젝트
* archive.today
* 인터넷 메모리 재단
* 리브리복스
* 국가 디지털 정보 인프라 및 보존 프로그램(NDIIPP)
* 국가 디지털 도서관 프로그램(NDLP)
* 프로젝트 구텐베르크
* 영국 정부 웹 아카이브 (영국 국립 문서 보관소)
* 영국 웹 아카이브
* WebCite
* 안나의 아카이브
* 아카이브 팀
* 디지털 암흑 시대
* 디지털 보존
* 헤리티릭스
* 라이브러리 제네시스
* 링크 부패
* 웹 아카이브 목록
* 메모리 홀
* 페타박스
* 검색 엔진 캐시