옛글/네트워크 이야기

Meta Tag로 검색엔진 노출을 방지하는 방법

ShakeJ 2011. 9. 22. 03:14
반응형

아래내용은 구글링하던 중에 margalog님의 블로그 내용을 참고했습니다.

내부홈페이지(인트라 홈페이지) 를 서버에 그냥 구축했을 시 , JSP 등 따로 언어를 사용하지 않고 제로보드 등 툴을 사용하여 제작했을 때, 로그인을 통해 게시판이나 페이지등을 잠그더라도, 구글 봇 등에 캡쳐 및 내용이 긁혀갈 수 있는데, 아래와 같이 robot배제 표준 txt를 사용하거나, 혹은 메타태그로도 간단하게 검색엔진에 긁히는 것을 방지할 수 있다고 하네요. 너무 신기하기도 하고 현재 작업중인 홈페이지에 적용을 해야 하던 참에 너무 필요한 내용이라 포스팅합니다.


 

로봇배제 표준이란?

www.robotstxt.org/

로봇배제 표준이란 구글 등 검색로봇이 정보 수집을 위해 사이트를 방문할 경우를 대비하여, 검색로봇에 의한 웹 사이트의 디렉터리 및 파일들에 대한 검색 조건을 명시해 놓은 국제 규약이다.
정상적인 검색로봇은 사이트 방문 시 가장 먼저 웹사이트의 로봇배제 표준파일(robots.txt)을 확인하고 파일에 명시된 사항을 준수하면서 웹사이트의 컨텐츠를 수집한다.
※ 로봇배제 표준은 방지기술이 아닌 사이트 및 검색로봇 운영자간의 단순한 약속(규약)이므로 악의적인 로봇의 경우 로봇 배제 표준을 무시하고 사이트의 컨텐츠를 수집할 수도 있다.

/robots.txt 파일 내용

1. 홈페이지 전체 내용을 모든 검색엔진에 노출 허용

User-Agent : *
Disallow :

2. 홈페이지 전체 내용을 모든 검색엔진에 노출 방지

User-Agent : *
Disallow : /

3. 홈페이지의 디렉터리가 information인 것에 대한 노출을 방지

User-Agent : *
Disallow : /information/

4. 특정 검색엔진(googlebot)의 접근만을 거부

User-Agent : googlebot
Disallow: /
User-Agent: *
Disallow:

5. 특정 검색엔진(googlebot)의 접근만을 허가

User-Agent : googlebot
Disallow :
User-Agent : *
Disallow: /

6. 모든 검색엔진에 대해 /directory/index.html의 접근을 거부

User-Agent : *
Disallow : /directory/index.html

7. 홈페이지의 디렉터리가 information인 것에 대한 노출을 허가

User-Agent : *
Allow : /information/

8. 홈페이지의 디렉터리 또는 파일명이 information인 것에 대한 접근을 허가

User-Agent : *
Allow : /information


- User-Agent : '*' :모든 User-Agent, 특정 User-Agent 를 지정할 경우 해당 로봇 이름을 입력
- Allow or Disallow
Disallow에서 '/'는 모든 하위 문서에 대한 배제를 의미, 아무것도 쓰지 않으면 허가를 의미
'/...../'는 디렉터리만, '/....' 는 디렉터리+파일이 적용대상



- Meta Tag를 통한 노출방지

<html>
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

</head>
noindex 면 그 페이지는 긁어가지 않습니다.
nofollow면 링크를 확인해서 긁어가는 것을 건너 뜁니다.

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">
-이 문서는 긁어가지 말고 링크된 문서만 긁어감

<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">
-
이 문서도 긁어가고 링크된 문서도 긁어감

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

- 이 문서도 긁지 않고, 링크도 무시함
반응형