모든 검색 엔진을 멈추는 방법, 봇이 일부 URL을 크롤링하는 방법

광고를 집계하려면 위젯을 클릭하고 싶습니다.모든 검색 엔진을 멈추는 방법, 봇이 일부 URL을 크롤링하는 방법

내가있는 robot.txt 파일을 사용했습니다 :

User-agent: * 
Allow:/
Disallow: */ads_count/*

나는 또한 그 위젯의 모든 링크에 대한 nofollow을 추가했습니다.

하지만 많은 봇은 여전히 해당 위젯에서 url을 추적합니다. URL을 계산할 클라이언트 IP를 얻었고 많은 IP 폼 봇을 얻었습니다.

출처

2012-12-04 Vô Danh Vô Hình

*/ads_count 이전에 (*)을 삭제하려고 했습니까? 검색 엔진 최적화에 대한 구글 문서가 말했듯이 모든 봇을 차단하려면 유처럼 , 그건 : 지시어는 대소 문자를 구분

User-agent: * // (to whom? (*) means all bots! 
Disallow: /ads_count

하는 것으로. 예를 들어 Disallow : /junk_file.asp는 http://www.example.com/junk_file.asp을 차단하지만 http://www.example.com/Junk_file.asp은 허용합니다. Googlebot은 공백 (특히 빈 줄)과 robots.txt의 알 수없는 지시문을 무시합니다.

출처

2012-12-04 10:43:43 periback2

예 : http://www.abc.com/ads_count/?u=213&a=9 그래서 내가 모든 로봇이 모든 URL에 따라 허용하려고 */ADS_COUNT/* 내가 뭔가 잘못하고 있습니까? –

User-agent를 추가하십시오 : * Disallow :/ads_count */(ads_count의 모든 하위 디렉토리를 차단한다고 가정합니다. – periback2

http://support.google.com/webmasters/bin/answer.py? hl = en & hlrm = pt-BR & answer = 156449 – periback2

Allow 및 Disallow에서 와일드 카드 * 그래서 모든 robots.txt를 파서 그 규칙을주의/알, 원래의 robots.txt 사양의 일부가 아닙니다.

당신이 /ads_count/로 시작하는 모든 페이지를 차단하려면

, 당신은 단지 필요

User-agent: * 
Disallow: /ads_count/

그러나 : 모든 로봇은 robots.txt를 존중합니다. 그래서 로봇을 무시하는 나쁜 봇에 의해 공격 당할 수 있습니다. 내 URL에 대한

출처

2012-12-10 14:45:27 unor

모든 검색 엔진을 멈추는 방법, 봇이 일부 URL을 크롤링하는 방법

답변

관련 문제