Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- BOF
- 백준알고리즘
- 머신러닝
- 밑바닥부터시작하는딥러닝
- 인공지능
- 딥러닝파이썬
- 신경망 학습
- C언어 알고리즘
- 신경망구현
- 백준
- FTZlevel10
- 활성화함수파이썬
- 항등함수
- 버퍼오버플로우
- 정보보안
- 신경망
- BOJ
- 딥러닝
- 파이썬신경망
- C알고리즘
- 보안
- 달고나bof
- c언어
- 스트림암호
- 파이썬
- 8086CPU레지스터
- C언어알고리즘
- 신경망파이썬
- 알고리즘
- 소프트맥스함수
Archives
- Today
- Total
HeeJ's
[01] Robots.txt 본문
웹 크롤러와 같은 로봇들의 접근을 제어하기 위한 국제 규약
이 로봇들을 관리해 원하는 페이지를 노출이 되거나, 노출되지 않도록 다룰 수 있다.
권고안이기 때문에 꼭 지킬 의무는 없다. (지킬 의무는 없지만 지켜주는 것이 상식이다.)
로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야한다.
이 로봇들은 포털사이트들을 돌아다니면서 정보를 수집하는데, 사이트를 돌아다니면서 검색엔진 결과에 잘 노출되도록 한다. 즉 포털 사이트에서 검색했을 때 사용자들이 원하는 사이트가 잘 보여지도록 하는 것이다.
서버의 트래픽이 한정되어있거나 검색 엔진에 노출을 원하지 않을 경우, robots.txt에 "안내문" 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고한다.
robots.txt는 웹사이트의 루트(최상위 경로)에 있어야 한다.
즉, 사이트를 치고, /robots.txt를 넣으면 볼 수 있다.
ex) http://www.example.com/robots.txt
특정 디렉토리의 접근을 허가하려면
User-agent: 제어할 로봇의 User-Agent
Allow: /foo/bar/
특정 디렉토리의 접근을 차단하려면
User-agent: 제어할 로봇의 User-Agent
Disallow: /foo/bar/
[출처]
1. https://limelightkr.co.kr/robots-txt-%EA%B7%B8%EA%B2%8C-%EB%AD%90%EC%A3%A0/
'<Information Security> > <Web Hacking>' 카테고리의 다른 글
[02] 쿠키와 세션 (0) | 2020.08.11 |
---|