<Information Security>/<Web Hacking>
[01] Robots.txt
meow00
2020. 8. 6. 21:32
웹 크롤러와 같은 로봇들의 접근을 제어하기 위한 국제 규약
이 로봇들을 관리해 원하는 페이지를 노출이 되거나, 노출되지 않도록 다룰 수 있다.
권고안이기 때문에 꼭 지킬 의무는 없다. (지킬 의무는 없지만 지켜주는 것이 상식이다.)
로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야한다.
이 로봇들은 포털사이트들을 돌아다니면서 정보를 수집하는데, 사이트를 돌아다니면서 검색엔진 결과에 잘 노출되도록 한다. 즉 포털 사이트에서 검색했을 때 사용자들이 원하는 사이트가 잘 보여지도록 하는 것이다.
서버의 트래픽이 한정되어있거나 검색 엔진에 노출을 원하지 않을 경우, robots.txt에 "안내문" 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고한다.
robots.txt는 웹사이트의 루트(최상위 경로)에 있어야 한다.
즉, 사이트를 치고, /robots.txt를 넣으면 볼 수 있다.
ex) http://www.example.com/robots.txt
특정 디렉토리의 접근을 허가하려면
User-agent: 제어할 로봇의 User-Agent
Allow: /foo/bar/
특정 디렉토리의 접근을 차단하려면
User-agent: 제어할 로봇의 User-Agent
Disallow: /foo/bar/
[출처]
1. https://limelightkr.co.kr/robots-txt-%EA%B7%B8%EA%B2%8C-%EB%AD%90%EC%A3%A0/
반응형