[01] Robots.txt

meow00 2020. 8. 6. 21:32

웹 크롤러와 같은 로봇들의 접근을 제어하기 위한 국제 규약

이 로봇들을 관리해 원하는 페이지를 노출이 되거나, 노출되지 않도록 다룰 수 있다.

권고안이기 때문에 꼭 지킬 의무는 없다. (지킬 의무는 없지만 지켜주는 것이 상식이다.)

로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야한다.

이 로봇들은 포털사이트들을 돌아다니면서 정보를 수집하는데, 사이트를 돌아다니면서 검색엔진 결과에 잘 노출되도록 한다. 즉 포털 사이트에서 검색했을 때 사용자들이 원하는 사이트가 잘 보여지도록 하는 것이다.

서버의 트래픽이 한정되어있거나 검색 엔진에 노출을 원하지 않을 경우, robots.txt에 "안내문" 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고한다.

robots.txt는 웹사이트의 루트(최상위 경로)에 있어야 한다.

즉, 사이트를 치고, /robots.txt를 넣으면 볼 수 있다.

ex) http://www.example.com/robots.txt

특정 디렉토리의 접근을 허가하려면

User-agent: 제어할 로봇의 User-Agent
Allow: /foo/bar/

특정 디렉토리의 접근을 차단하려면

User-agent: 제어할 로봇의 User-Agent
Disallow: /foo/bar/

[출처]