로봇 배제 표준

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

로봇 배제 표준은 웹사이트 소유자가 웹 로봇의 접근을 제어하기 위해 사용하는 프로토콜이다. 1994년 처음 제안되었으며, 웹사이트 루트에 robots.txt 파일을 위치시켜 특정 페이지나 디렉토리에 대한 접근을 허용하거나 차단하는 지침을 제공한다. 이 표준은 검색 엔진, 웹 아카이빙 프로젝트, 생성형 인공지능 학습 데이터 수집 봇 등에 의해 널리 사용되지만, 구속력은 없으며, robots.txt를 무시하는 봇도 존재한다. robots.txt 외에도 메타 태그와 HTTP 헤더를 사용하여 로봇의 접근을 제어할 수 있으며, 500KiB 크기 제한이 있다.

더 읽어볼만한 페이지

월드 와이드 웹 - 구글
구글은 래리 페이지와 세르게이 브린이 개발한 웹 검색 엔진에서 출발하여 검색 기술 혁신을 통해 유튜브, 안드로이드 등 다양한 서비스를 제공하는 세계적인 기술 기업으로 성장했지만, 개인정보보호 및 독점 논란에도 직면하고 있다.
월드 와이드 웹 - 온라인 언론
온라인 언론은 인터넷을 통해 뉴스 및 정보를 제공하며, 디지털 기술 발달과 함께 성장하여 시민 저널리즘 부상, 정보 전달 속도 혁신 등의 특징을 보이지만 정보 신뢰성 문제, 전통 언론 쇠퇴 등의 과제를 안고 있다.

로봇 배제 표준
일반 정보
정식 명칭	로봇 배제 프로토콜
다른 이름	로봇 배제 표준
유형	인터넷 프로토콜
상태	제안 표준
최초 게시	1994년
공식 표준화	2022년
관련 RFC	RFC 9309
원작자	마틴 코스터
IETF 기여자	게리 일리스 헤너 젤러 리지 사스만
웹사이트	robotstxt.org RFC 9309
"user-agent Mallorybot은 웹 사이트의 페이지를 크롤링할 수 없으며 다른 사용자 에이전트는 20초마다 한 페이지 이상을 크롤링할 수 없고 'secret' 폴더를 크롤링할 수 없음을 나타내는 간단한 robots.txt 파일의 예"
기술 정보
설명	웹사이트의 어느 부분에 접근해도 되는지 로봇에게 알리는 텍스트 파일
위치	웹사이트의 루트 디렉토리에 위치
사용	검색 엔진 봇, 웹 크롤러, 기타 웹 로봇의 접근 제어
구문	User-agent: 로봇의 이름 지정 Disallow: 접근 금지 URL 지정 Allow: (선택 사항) 접근 허용 URL 지정 Crawl-delay: (선택 사항) 크롤링 간 지연 시간 지정 Sitemap: (선택 사항) 사이트맵 URL 지정

2. 역사

이 표준은 1994년 2월, 당시 월드 와이드 웹(WWW) 관련 활동의 주요 소통 창구였던 ''www-talk'' 메일링 리스트에서 넥소어(Nexor) 소속의 마르테인 코스터(Martijn Koster)^[1]^[2]^[3]^[4]에 의해 처음 제안되었다. 찰스 스트로스(Charles Stross)는 자신이 작성한 웹 크롤러가 의도치 않게 코스터의 서버에 서비스 거부 공격을 일으키자, 코스터에게 robots.txt 아이디어를 제안하도록 유도했다고 주장한다.^[5] 코스터는 당시 WebCrawler 검색 엔진에서도 일하고 있었던 것으로 알려져 있다.

초기 표준의 이름은 RobotsNotWanted.txt였으며, 웹 개발자가 특정 봇의 웹사이트 접근 또는 특정 페이지 접근을 막도록 지정하는 것을 목표로 했다. 1994년 당시 인터넷은 모든 봇의 목록을 유지할 수 있을 정도로 규모가 작았고, 서버 과부하가 주요 문제였다. 이 표준은 1994년 6월까지 robots-request@nexor.co.uk 메일링 리스트 구성원들의 합의를 통해 ''사실상'' 표준으로 자리 잡았으며,^[6] WebCrawler, Lycos, AltaVista와 같은 초기 검색 엔진 운영자 대부분이 이를 따랐다.^[7] 이후 AltaVista 등 다른 검색 엔진들이 등장하면서 더욱 일반화되었다.

2007년 11월 30일에는 자동 콘텐츠 접근 프로토콜(ACAP) v1.0이 로봇 배제 표준을 보완하기 위해 등장했으나, 구글(Google) 등 주요 검색 엔진은 이를 채택하지 않았다.

시간이 흘러 2019년 7월 1일, 구글은 로봇 배제 프로토콜을 인터넷 엔지니어링 태스크 포스(IETF)의 공식 표준으로 제안한다고 발표했다.^[8] 이 제안은 2022년 9월 RFC 9309로 공식 출판되었다.

3. 표준

웹사이트 소유자가 웹 로봇에게 지침을 제공하고자 할 경우, 웹사이트 계층 구조의 루트에 ''robots.txt''라는 텍스트 파일을 위치시킨다(예: https://www.example.com/robots.txt).^[9] 이 텍스트 파일은 특정 형식의 지침을 포함하며, 지침을 따르기로 선택한 로봇은 웹사이트의 다른 파일을 가져오기 전에 이 파일을 먼저 읽는다. 만약 ''robots.txt'' 파일이 존재하지 않으면, 웹 로봇은 웹사이트 소유자가 전체 사이트 크롤링에 제한을 두지 않는 것으로 간주한다.

''robots.txt'' 파일은 봇이 접근할 수 있는 웹 페이지와 접근할 수 없는 웹 페이지를 나타내는 지침을 담고 있으며, 특히 구글과 같은 검색 엔진의 웹 크롤러에게 중요하다. 웹사이트의 ''robots.txt'' 파일은 지정된 로봇이 사이트를 크롤링할 때 특정 파일이나 디렉토리를 무시하도록 요청하는 기능을 한다. 이는 검색 엔진 결과에서 개인 정보를 보호하거나, 특정 디렉토리의 내용이 사이트 분류에 오해의 소지가 있거나 관련 없다고 판단될 때, 또는 특정 애플리케이션만 해당 데이터에 접근하도록 의도할 때 사용될 수 있다. 그러나 ''robots.txt''에 명시된 페이지라도 다른 크롤링된 페이지에서 링크되어 있다면 검색 결과에 나타날 수 있다.^[9]

''robots.txt'' 파일은 하나의 출처를 기준으로 작동한다. 여러 하위 도메인을 가진 웹사이트의 경우, 각 하위 도메인마다 별도의 ''robots.txt'' 파일이 필요하다. 예를 들어, example.com에 ''robots.txt'' 파일이 있더라도 a.example.com에는 해당 규칙이 적용되지 않는다. 또한, 각 프로토콜과 포트별로도 별도의 ''robots.txt'' 파일이 필요하다. http://example.com/robots.txt 파일의 규칙은 http://example.com:8080/ 또는 https://example.com/ 아래의 페이지에는 적용되지 않는다.

다음은 ''robots.txt'' 파일 작성의 몇 가지 예시이다.

모든 로봇에게 모든 문서 접근 허용:

```text

User-agent: *

Allow: /

```

모든 로봇 차단:

```text

User-agent: *

Disallow: /

```

모든 로봇에 대해 특정 디렉터리 접근 차단:

```text

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

```

모든 로봇에 대해 특정 파일 접근 차단:

```text

User-agent: *

Disallow: /directory/file.html

```

특정 로봇(BadBot)의 모든 파일 접근 차단:

```text

User-agent: BadBot

Disallow: /

```

특정 로봇들(BadBot, Googlebot)의 특정 디렉터리 접근 차단:

```text

User-agent: BadBot

User-agent: Googlebot

Disallow: /private/

```

다양한 조합 사용 예시:

```text

User-agent: googlebot # googlebot 로봇만 적용

Disallow: /private/ # 이 디렉토리를 접근 차단한다.

User-agent: googlebot-news # googlebot-news 로봇만 적용

Disallow: / # 모든 디렉토리를 접근 차단한다.

User-agent: * # 모든 로봇 적용

Disallow: /something/ # 이 디렉토리를 접근 차단한다.

```

이 표준은 1994년 2월, 당시 WWW 관련 활동의 주요 소통 채널이었던 'www-talk' 메일링 리스트에서 넥소어(Nexor) 소속의 마르테인 코스터(Martijn Koster)에 의해 제안되었다.^[1]^[2]^[3]^[4] 찰스 스트로스(Charles Stross)는 자신이 작성한 오작동하는 웹 크롤러가 코스터의 서버에 의도치 않은 서비스 거부 공격을 일으킨 후, 코스터에게 이 표준을 제안하도록 유도했다고 주장한다.^[5]

초기에 이 표준은 'RobotsNotWanted.txt'라는 이름으로 불렸으며, 웹 개발자가 자신의 웹사이트에 접근하지 않아야 할 봇이나 페이지를 지정할 수 있도록 했다. 1994년 당시 인터넷은 모든 봇의 목록을 유지할 수 있을 정도로 규모가 작았고, 서버 과부하가 주요 문제였다. 1994년 6월까지 이 표준은 ''사실상'' 표준이 되었고,^[6] WebCrawler, Lycos, AltaVista 등 주요 검색 엔진들이 이를 준수했다.^[7]

2019년 7월 1일, 구글은 로봇 배제 프로토콜을 인터넷 엔지니어링 태스크 포스(IETF)에 공식 표준으로 제안한다고 발표했다.^[8] 이 제안은 2022년 9월 RFC 9309로 출판되었다.

4. 준수

로봇 배제 표준은 봇 운영자에 의해 널리 준수되고 있다.^[6]

4. 1. 검색 엔진

이 표준을 따르는 주요 검색 엔진으로는 Ask,^[10] AOL,^[11] 바이두,^[12] 빙,^[13] 덕덕고,^[14] 카기,^[15] 구글,^[16] 야후!,^[17] 그리고 얀덱스^[18] 등이 있다.

4. 2. 아카이브 사이트

일부 웹 아카이빙 프로젝트는 robots.txt를 무시한다. 아카이브 팀은 이 파일을 사용하여 사이트맵과 같은 더 많은 링크를 발견한다.^[19] 공동 창립자 제이슨 스콧은 "확인되지 않고 그대로 두면, robots.txt 파일은 웹사이트의 맥락을 넘어 일반적인 사용과 의미를 가질 수 있는 항목에 대한 미러링이나 참조를 보장하지 않는다"라고 말했다.^[20] 2017년, 인터넷 아카이브는 robots.txt 지침을 더 이상 준수하지 않겠다고 발표했다.^[21]^[6] ''디지털 트렌드''에 따르면, 이는 검색 엔진 결과에서 과거 사이트를 제거하기 위한 robots.txt의 광범위한 사용에 따른 것이었으며, 비영리 단체의 과거 인터넷 "스냅샷" 아카이빙 목표와는 대조적이었다.^[22]

4. 3. 인공지능

2020년대부터 웹사이트 운영자들은 생성형 AI의 학습 데이터를 수집하는 로봇(봇)의 접근을 막기 위해 robots.txt 파일을 사용하기 시작했다. 2023년, Originality.AI의 조사에 따르면 가장 많이 방문한 웹사이트 1,000개 중 306개가 OpenAI의 GPTBot을, 85개가 구글(Google)의 Google-Extended 봇을 robots.txt 파일에서 차단한 것으로 나타났다. 많은 robots.txt 파일에서는 GPTBot을 명시적으로 허용하지 않는 유일한 봇으로 지정하기도 했다. 특히 BBC나 ''뉴욕 타임스''와 같은 뉴스 웹사이트에서 GPTBot의 접근을 거부하는 경우가 많았다. 2023년에는 블로그 플랫폼인 미디엄이 "AI 회사들이 인터넷 독자들에게 스팸을 보내기 위해 작가들로부터 가치를 빼앗았다"고 주장하며 모든 인공지능 웹 크롤러의 접근을 거부하겠다고 발표했다.^[6]

OpenAI의 GPTBot은 robots.txt 표준을 준수하며 웹사이트 운영자에게 봇 접근을 허용하지 않는 방법에 대한 정보를 제공하고 있다. 하지만 ''The Verge''의 데이비드 피어스는 이러한 조치가 "강력한 기반 모델을 훈련한 후에야 비로소 시작되었다"고 지적했다. 또한, 일부 봇은 검색 엔진과 인공지능 학습 양쪽에 모두 사용되기 때문에, 둘 중 하나만 선택적으로 차단하기 어려울 수 있다는 문제도 있다.^[6] 한편, ''404 미디어''는 Anthropic이나 Perplexity.ai와 같은 일부 AI 회사들이 robots.txt 규약을 우회하기 위해 기존에 차단 목록에 오른 스크레이퍼(데이터 수집 봇)의 이름을 바꾸거나 새로운 스크레이퍼를 만들어 운영하고 있다고 보도했다.^[23]

5. 보안

"허용" 및 "허용 안 함"이라는 용어를 사용함에도 불구하고, 이 프로토콜은 순전히 권고적인 성격을 가지며 웹 로봇의 자발적인 준수에 의존한다. 즉, `robots.txt` 파일에 명시된 내용을 강제할 수 있는 방법은 없다. 악의적인 웹 로봇은 `robots.txt`의 지침을 따르지 않을 가능성이 높으며, 일부는 오히려 이 파일을 이용하여 접근이 제한된 링크를 찾아내 직접 접근하는 데 악용할 수도 있다. 때때로 이것이 보안상의 위험 요소로 지적되기도 하지만,^[25] 이러한 방식의 모호성을 통한 보안은 표준 기구에서 권장하지 않는 방법이다. 특히 미국 국립 표준 기술 연구소(NIST)는 이러한 관행에 반대하며 "시스템 보안은 구현 또는 구성 요소의 기밀성에 의존해서는 안 된다"고 권고한다.^[26] 따라서 `robots.txt` 파일을 이용한 정보 은닉은 보안 기술로서 권장되지 않는다.^[27]

이 프로토콜은 구속력이 전혀 없으며, 전적으로 봇 측의 협조를 전제로 한다. 따라서 `robots.txt`에 특정 파일 접근을 금지하도록 지정했다고 해서 해당 정보의 프라이버시가 보장되는 것은 아니다. `robots.txt`에서 접근을 제한한 파일이라도 웹 브라우저를 사용하면 누구나 해당 파일을 열람할 수 있다. 또한, 이 프로토콜을 무시하도록 설계된 봇을 운영하는 것도 가능하다.

참고로, `robots.txt`에 기재된 패턴은 단순히 경로명의 일부와 일치하는지 여부로 판단된다. 따라서 디렉토리를 지정할 때는 경로 마지막에 '/'를 붙이지 않으면, 같은 문자열을 포함하는 다른 파일이나 디렉토리까지 의도치 않게 차단될 수 있다.

6. 대안

HTML의 meta 태그를 이용하는 방법도 있다.

<meta name="Robots" content="Noindex,Nofollow" />

하지만 이 방법은 일반적이지 않으며, 아직 일부 로봇만이 지원한다.

많은 로봇은 콘텐츠를 가져올 때 웹 서버에 특수한 사용자 에이전트를 전달하기도 한다.^[28] 웹 관리자는 이를 이용하여 특정 로봇의 접근을 감지했을 때, 서버가 자동으로 접속 실패를 반환하거나 대체 콘텐츠를 전달하도록 설정할 수 있다.^[29]^[30]

구글과 같은 일부 사이트에서는 사람이 읽기 위한 정보를 담은 humans.txt 파일을 제공하기도 한다.^[31] 깃허브와 같은 일부 사이트는 humans.txt 접근 시 '정보' 페이지로 자동으로 연결(리디렉션)한다.^[32]

과거 구글은 /killer-robots.txt라는 파일을 통해 터미네이터에게 회사 창립자인 래리 페이지와 세르게이 브린을 해치지 말라는 농담성 내용을 담기도 했다.^[33]^[34]

7. 예시

와일드카드 `*`는 모든 로봇을 의미한다. 아래 예시는 `Disallow` 지시어에 값이 없으므로, 모든 로봇이 모든 파일에 접근할 수 있음을 나타낸다. 즉, 차단되는 페이지가 없다.

User-agent: *

Disallow:

아래 예시는 모든 파일을 명시적으로 허용하며, 위와 동일한 효과를 가진다. robots.txt 파일이 비어 있거나 없는 경우에도 마찬가지로 모든 접근이 허용된다.

User-agent: *

Allow: /

모든 로봇에게 웹사이트 전체 접근을 차단하려면 다음과 같이 작성한다.

User-agent: *

Disallow: /

모든 로봇에게 특정 디렉토리들의 접근을 차단하려면 다음과 같이 작성한다. 아래 예시는 `/cgi-bin/`, `/tmp/`, `/junk/` 세 디렉토리의 접근을 막는다.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

모든 로봇에게 특정 파일 하나의 접근을 차단하려면 다음과 같이 작성한다. 아래 예시는 `/directory/file.html` 파일 접근을 막는다. 해당 디렉토리의 다른 파일 접근은 허용된다.

User-agent: *

Disallow: /directory/file.html

특정 로봇의 접근을 차단할 수도 있다. 아래는 'BadBot'이라는 로봇의 웹사이트 전체 접근을 차단하는 예시이다. (실제 사용 시 'BadBot'을 해당 로봇의 user-agent 문자열로 바꿔야 한다.)

User-agent: BadBot

Disallow: /

여러 특정 로봇에 대해 특정 디렉토리 접근을 차단할 수도 있다. 아래는 'BadBot'과 'Googlebot' 두 로봇의 `/private/` 디렉토리 접근을 차단하는 예시이다.

User-agent: BadBot

User-agent: Googlebot

Disallow: /private/

`#` 기호를 사용하여 주석을 추가할 수 있다. 주석은 줄의 시작 부분이나 지시어 뒤에 올 수 있으며, 로봇의 동작에 영향을 주지 않는다.

# 주석은 줄의 시작 부분에서 "#" 기호 뒤에 나타나거나 지시어 뒤에 나타납니다.

User-agent: * # 모든 봇과 일치

Disallow: / # 접근 금지

서로 다른 로봇(user-agent)에 대해 각기 다른 규칙을 설정할 수 있다. 구글(Google)과 같은 일부 검색 엔진 운영자는 특정 서비스(예: 뉴스 검색)에 대해 별도의 user-agent를 사용하기도 한다.^[16] 아래는 여러 user-agent 규칙을 조합한 예시이다.

User-agent: googlebot # 모든 구글 서비스

Disallow: /private/ # 이 디렉토리 금지

User-agent: googlebot-news # 뉴스 서비스만

Disallow: / # 모든 것 금지

User-agent: * # 그 외 모든 로봇

Disallow: /something/ # 이 디렉토리 금지

8. 비표준 확장

로봇 배제 표준의 공식 규격에는 포함되지 않지만, 일부 웹 크롤러들이 추가적으로 인식하고 사용하는 비표준 지시어들이 존재한다. 이러한 비표준 확장 기능은 웹사이트 관리자가 크롤러의 동작을 더 세밀하게 제어하거나 추가적인 정보를 제공하는 데 사용될 수 있다. 대표적인 비표준 확장으로는 크롤링 속도를 조절하기 위한 'Crawl-delay' 지시어와 웹사이트의 구조 정보를 제공하는 'Sitemap' 지시어 등이 있다. 모든 크롤러가 이러한 비표준 지시어를 지원하는 것은 아니며, 해석 방식도 크롤러마다 다를 수 있다.

8. 1. Crawl-delay 지시어

크롤 딜레이(Crawl-delay) 값은 일부 크롤러에서 호스트 방문 빈도를 조절하기 위해 지원하는 지시어이다. 이 값은 로봇 배제 표준의 일부가 아니므로, 이를 해석하는 방식은 크롤러마다 다르다. 주로 로봇의 잦은 방문으로 인해 호스트 서버의 속도가 느려지는 것을 방지하기 위해 사용된다. 몇몇 주요 크롤러는 이 매개변수를 지원하며, 동일 서버에 요청을 반복할 경우 지정된 시간(초 단위)만큼 대기하도록 지시하는 것이다.^[46]^[47]^[48]

주요 크롤러별 해석 방식은 다음과 같다.

얀덱스: 후속 방문 사이의 대기 시간(초)으로 해석한다.^[18]
빙: 빙봇이 웹사이트에 한 번만 접근하는 시간 창(1~30초)의 크기로 정의한다.^[35]
구글: 이 지시어를 무시하지만,^[36] 웹마스터가 구글 서치 콘솔을 통해 구글봇의 후속 방문 속도를 제어할 수 있는 기능을 제공한다.^[37]

아래는 사용 예시이다.

: bingbot에게 10초의 딜레이를 적용:

:



: User-agent: bingbot


: Allow: /


: Crawl-delay: 10

:

: 모든 로봇에게 10초의 딜레이를 적용:

:



: User-agent: *


: Crawl-delay: 10

:

8. 2. Sitemap

일부 크롤러는 Sitemap 지시어를 지원하며, 동일한 ''robots.txt'' 파일 내에 `Sitemap: 전체 URL` 형식으로 여러 개의 사이트맵을 사용할 수 있다.^[38]^[52]

예시는 다음과 같다:

Sitemap: http://www.example.com/sitemap.xml

Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml

Sitemap: https://www.google.com/hostednews/sitemap_index.xml

9. 메타 태그 및 헤더

`와 같은 메타 태그를 삽입하여 로봇의 행동을 제어할 수 있다. 하지만 이 방법은 일반적이지 않으며 일부 로봇만이 지원한다. 또한 robots 메타 태그는 HTML 문서에만 적용할 수 있다는 한계가 있다.

반면, `X-Robots-Tag`는 웹 서버 설정을 통해 HTTP 헤더에 직접 로봇 배제 지침을 포함시키는 방식이다. 이 방법은 .htaccess 파일이나 httpd.conf 파일을 수정하여 적용하며, HTML 문서뿐만 아니라 이미지, 텍스트 파일, PDF 문서 등 다양한 형식의 파일에도 로봇 배제 규칙을 적용할 수 있다는 장점이 있다.

9. 1. "noindex" 메타 태그

`

또는

``

하지만 이 방법은 일반적이지 않으며, 일부 로봇만이 이 태그를 인식하고 따른다.

보다 세분화된 제어를 위해서는 robots 메타 태그나 `X-Robots-Tag` HTTP 헤더를 사용할 수 있다. `robots` 메타 태그는 HTML 문서에 직접 삽입하는 방식이지만, 이미지, 텍스트 파일, PDF 문서와 같은 HTML이 아닌 파일에는 사용할 수 없다는 단점이 있다. 반면, `X-Robots-Tag`는 웹 서버 설정 파일(.htaccess나 httpd.conf)을 통해 HTTP 헤더에 직접 지침을 추가하는 방식으로, HTML이 아닌 파일 형식에도 로봇 배제 지침을 적용할 수 있다.

9. 2. "noindex" HTTP 응답 헤더

HTTP 응답 헤더에 `X-Robots-Tag`를 포함하여 검색 엔진 로봇에게 페이지를 색인하지 않도록 지시할 수 있다. 예를 들어, 다음과 같이 사용한다.

X-Robots-Tag: noindex

이 방법 외에도 HTML 문서의 `` 섹션 안에 meta 태그를 사용하는 방법도 있다.

<meta name="Robots" content="Noindex,Nofollow" />

하지만 이 meta 태그 방식은 일반적이지 않으며 일부 로봇만 지원한다.

`X-Robots-Tag` 헤더는 서버가 페이지 요청에 응답한 후에 유효하고, robots meta 태그는 페이지가 완전히 로드된 후에 유효하다. 반면, robots.txt 파일은 로봇이 페이지를 요청하기 전에 먼저 확인하는 파일이다. 따라서 만약 `robots.txt` 파일에서 특정 페이지의 접근을 차단했다면, 로봇은 해당 페이지에 접근하지 않으므로 페이지 내의 robots meta 태그나 서버 응답의 `X-Robots-Tag` 헤더를 확인할 기회 자체가 없게 된다. 결과적으로 `robots.txt`의 설정이 우선 적용되어 meta 태그나 `X-Robots-Tag`의 지침은 무시된다.^[40]

9. 3. robots.txt 파일의 최대 크기

로봇 배제 프로토콜은 크롤러가 robots.txt 파일의 최소 500 KiB(512,000바이트)를 파싱하도록 요구하며, 구글은 이를 robots.txt 파일에 대한 500 KiB 파일 크기 제한으로 유지하고 있다.^[41]

10. 단점

"허용"이나 "허용 안 함" 같은 용어를 사용하지만, 이 프로토콜은 강제성이 없는 권고 사항일 뿐이며 웹 로봇이 자발적으로 따라주기를 기대하는 방식이다. 따라서 robots.txt 파일에 명시된 내용을 강제할 방법은 없다. 악의적인 웹 로봇은 robots.txt를 무시할 가능성이 높고, 오히려 이 파일을 이용해 접근이 제한된 경로를 찾아내 직접 접근하려 할 수도 있다.

때때로 robots.txt를 이용한 접근 제한이 보안 조치로 여겨지기도 하지만,^[25] 이는 ''모호성을 통한 보안''에 해당하며, 일반적으로 권장되지 않는 방식이다. 미국 국립 표준 기술 연구소(NIST) 역시 "시스템 보안은 구현 또는 구성 요소의 비밀 유지에 의존해서는 안 된다"고 지적하며 이러한 접근법을 권장하지 않는다.^[26] 즉, robots.txt를 통한 정보 은닉은 신뢰할 수 있는 보안 방법이 아니다.^[27]

결론적으로 이 프로토콜은 전혀 구속력이 없으며, 봇의 자발적인 협조에 의존한다. robots.txt로 특정 파일이나 디렉토리에 대한 접근을 제한하더라도, 웹 브라우저를 사용하는 사람은 누구나 해당 정보에 접근할 수 있으므로 프라이버시가 완전히 보장되는 것은 아니다. 또한, 프로토콜 자체를 무시하는 봇을 만드는 것도 가능하다.

기술적인 측면에서는, robots.txt에 작성된 패턴 매칭 방식이 단순하다는 단점도 있다. 경로명의 일부 문자열 일치 여부만 판단하기 때문에, 특정 디렉토리 접근을 막으려고 할 때 경로 마지막에 슬래시(`/`)를 붙이지 않으면, 의도치 않게 같은 문자열로 시작하는 다른 파일이나 디렉토리까지 차단될 수 있다.

11. 확장 규격

로봇 배제 표준의 확장 규격으로 로봇 배제에 대한 확장 표준이라는 제목으로 제안되었다. 추가된 지시어로는 '''Visit-time''' 및 '''Request-rate'''가 있다. 예를 들어 다음과 같다.

User-agent: *

Disallow: /downloads/

Request-rate: 1/5 # 최대 속도는 5초마다 페이지 1개

Visit-time: 0600-0845 # UTC(GMT) 기준 06:00부터 08:45까지만 방문 가능

참조

_[1] 웹사이트 Historical http://www.greenhill[...] 2017-03-03
_[2] 웹사이트 Maintaining Distributed Hypertext Infostructures: Welcome to MOMspider's Web http://www94.web.cer[...] 2013-09-25
_[3] 웹사이트 The Web Robots Pages http://www.robotstxt[...] Robotstxt.org 2013-12-29
_[4] 웹사이트 Important: Spiders, Robots and Web Wanderers https://web.archive.[...] 1994-02-25
_[5] 웹사이트 How I got here in the end, part five: "things can only get better!" http://www.antipope.[...] 2014-04-19
_[6] 웹사이트 The text file that runs the internet https://www.theverge[...] 2024-03-16
_[7] 웹사이트 Robots.txt Celebrates 20 Years Of Blocking Search Engines http://searchenginel[...] 2015-11-19
_[8] 웹사이트 Formalizing the Robots Exclusion Protocol Specification https://webmasters.g[...] 2019-07-10
_[9] 웹사이트 Uncrawled URLs in search results https://www.youtube.[...] YouTube 2013-12-29
_[10] 웹사이트 About Ask.com: Webmasters http://about.ask.com[...] 2013-02-16
_[11] 웹사이트 About AOL Search https://web.archive.[...] 2013-02-16
_[12] 웹사이트 Baiduspider http://www.baidu.com[...] 2013-02-16
_[13] 웹사이트 Robots Exclusion Protocol: joining together to provide better documentation https://blogs.bing.c[...] 2013-02-16
_[14] 웹사이트 DuckDuckGo Bot https://duckduckgo.c[...] 2017-04-25
_[15] 웹사이트 Kagi Search KagiBot https://kagi.com/bot 2024-11-20
_[16] 웹사이트 Webmasters: Robots.txt Specifications https://developers.g[...] 2013-02-16
_[17] 웹사이트 Submitting your website to Yahoo! Search http://help.yahoo.co[...] 2013-02-16
_[18] 웹사이트 Using robots.txt http://help.yandex.c[...] 2013-02-16
_[19] 웹사이트 ArchiveBot: Bad behavior https://wiki.archive[...] Archive Team 2022-10-10
_[20] 웹사이트 Robots.txt is a suicide note http://www.archivete[...] Archive Team 2017-02-18
_[21] 웹사이트 Robots.txt meant for search engines don't work well for web archives {{!}} Internet Archive Blogs https://blog.archive[...] 2018-12-01
_[22] 뉴스 The Internet Archive Will Ignore Robots.txt Files to Maintain Accuracy https://www.digitalt[...] 2017-05-08
_[23] 웹사이트 Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones) https://www.404media[...] 2024-07-29
_[24] 웹사이트 Block URLs with robots.txt: Learn about robots.txt files https://support.goog[...] 2015-08-10
_[25] 웹사이트 Robots.txt tells hackers the places you don't want them to look https://www.theregis[...] 2015-08-12
_[26] 간행물 Guide to General Server Security http://csrc.nist.gov[...] 2015-08-12
_[27] 서적 Innocent Code: A Security Wake-Up Call for Web Programmers https://books.google[...] John Wiley & Sons 2015-08-12
_[28] 웹사이트 List of User-Agents (Spiders, Robots, Browser) http://www.user-agen[...] User-agents.org 2013-12-29
_[29] 웹사이트 Access Control - Apache HTTP Server https://httpd.apache[...] Httpd.apache.org 2013-12-29
_[30] 웹사이트 Deny Strings for Filtering Rules : The Official Microsoft IIS Site http://www.iis.net/c[...] Iis.net 2013-12-29
_[31] 웹사이트 Google humans.txt https://www.google.c[...] 2019-10-03
_[32] 웹사이트 Github humans.txt https://github.com/h[...] 2019-10-03
_[33] 웹사이트 Is This a Google Easter Egg or Proof That Skynet Is Actually Plotting World Domination? https://slate.com/te[...] 2019-10-03
_[34] 웹사이트 /killer-robots.txt https://web.archive.[...] 2018-05-25
_[35] 웹사이트 To crawl or not to crawl, that is BingBot's question https://blogs.bing.c[...] 2016-02-09
_[36] 웹사이트 How Google interprets the robots.txt specification https://developers.g[...] 2024-05-23
_[37] 웹사이트 Change Googlebot crawl rate - Search Console Help https://support.goog[...] 2018-10-22
_[38] 웹사이트 Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps http://ysearchblog.c[...] 2009-03-23
_[39] 웹사이트 Robots.txt Specifications https://developers.g[...] 2020-02-15
_[40] 웹사이트 Robots meta tag and X-Robots-Tag HTTP header specifications - Webmasters — Google Developers https://developers.g[...] 2013-08-17
_[41] 웹사이트 How Google Interprets the robots.txt Specification {{!}} Documentation https://developers.g[...] 2022-10-17
_[42] 웹사이트 A Standard for Robot Exclusion http://www.robotstxt[...]
_[43] ACAP Information http://www.the-acap.[...]
_[44] 웹사이트 Google、REP（ロボット排除規約）のWEB標準化を推進へ https://japanese.eng[...] Engadget 2019-07-02
_[45] 웹사이트 "{IETF RFC|9309}: Robots Exclusion Protocol" https://datatracker.[...] 2022-09-09
_[46] 웹사이트 How can I reduce the number of requests you make on my web site? http://help.yahoo.co[...] 2007-03-31
_[47] 웹사이트 MSNBot が Web サイトをクロールする回数が多すぎる http://help.live.com[...] 2010-09-23
_[48] 웹사이트 About Ask.com: Webmasters http://about.ask.com[...] 2010-09-23
_[49] 웹사이트 Googleウェブマスターセントラル - robots.txt ファイルを使用してページをブロックまたは削除する https://www.google.c[...] 2007-11-20
_[50] 웹사이트 How do I prevent my site or certain subdirectories from being crawled? - Yahoo Search Help http://help.yahoo.co[...] 2007-11-20
_[51] 웹사이트 Robots Exclusion Protocol - joining together to provide better documentation http://www.bing.com/[...] 2009-12-03
_[52] 웹사이트 Yahoo! Search Blog - Webmasters can now auto-discover with Sitemaps http://ysearchblog.c[...] 2009-03-23
_[53] 웹사이트 https://www.twinword[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com