2014-03-28 4 views
1

문제가 있습니다.로봇으로 인식 된 정적 IP에서 크롤링

내 웹 크롤러는 대학에서 제대로 실행 내가 필요로하는 페이지/pgol에 /와 robots.txt에이 말한다하더라도 : 나는 그것을 실행할 때

# File controlled by PUPPET: do not modify!!! 
# /robots.txt file for http://www.paginegialle.it 

User-Agent: bingbot 
Crawl-delay: 30 

User-Agent: msnbot 
Crawl-delay: 30 

User-agent: * 
Disallow: /pgol/ 
Disallow: /pg/cgi/ 
Disallow: /pgolfe/ 
Disallow: /info/*.html 

User-Agent: bingbot 
Crawl-delay: 30 

User-Agent: msnbot 
Crawl-delay: 30 

Sitemap: http://www.paginegialle.it/sitemap.xml 
Sitemap: http://www.paginegialle.it/sitemap_fe.xml 

을하지만, 직장에서 사이트가 로봇으로 즉시 나를 인식하고 나에게이 페이지를 보내

<!DOCTYPE html> 
<head> 
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 
<meta http-equiv="cache-control" content="max-age=0" /> 
<meta http-equiv="cache-control" content="no-cache" /> 
<meta http-equiv="expires" content="0" /> 
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" /> 
<meta http-equiv="pragma" content="no-cache" /> 
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?Ref=/pgol/4-Benzinaio/3-Roma/p=1?mr=50&distil_RID=06AFED2E-B651-11E3-8450-306F5DBA1712" /> 
<script type="text/javascript" src="/ga.137584219024.js?PID=6D4E4D1D-7094-375D-A439-0568A6A70836" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#centersf323034b,#Freddy231a90d5,#category58c315d5,#Freddy231a90d5{display:none!important}</style></head> 
<body> 
<div id="distil_ident_block">&nbsp;</div> 
<div id="d__fFH"><OBJECT id="d_dlg" CLASSID="clsid:3050f819-98b5-11cf-bb82-00aa00bdce0b" width="0px" height="0px"></OBJECT><span id="d__fF"></span></div></body> 
</html> 

난이 CAU 생각을 제 동료가 말하길 많은 요청을했고 그 서버는 IP를 나쁜 로봇으로 등록했습니다.

나는 서버의 효과적인 기능이 무엇인지 모르겠다. 그래서 내가 방금 말한 것은 잘못 될 수있다.

난 당신이 나에게 상황을 설명 할 수 Google 코드

에서 특정 crawler4j에, 자바를 사용하고 있는데 당신은 나에게 어떤 솔루션을 제안 할 수 있습니까?

+0

웹 크롤러가 로봇이지만 사이트가 로봇에 의해 크롤링되기를 원하지 않습니다. 아마도 당신이 일하는 곳을 바꿀 필요가있을 것입니다. – Jodrell

+0

나는 해킹 중이며, 금이 간다. 저는 웹 사이트를 만드는 소프트웨어 하우스에서 일하고 정보를 훔치고 싶지 않습니다. 저는 보안의 한계를 테스트하고 그것을 향상시키는 방법을 배워야합니다. 그래서 ... 무슨 일이 일어 났는지 설명해 주시겠습니까? 왜 다른 곳에서 작동합니까? – Baldo

+0

프록시를 사용해 보셨습니까? – Oleg

답변

2

robots.txt은 길 건너편에 있습니다. 그들을 우회하려면, 할 수 있습니다. 그렇기 때문에 robots.txt을 준수하지 않는 사람들에 대해 더 엄격한 방법 (예 : 악의적 인 IP 필터링)이 구현되는 경우가 있습니다.

'좋은 의도'는 중요하지 않습니다. 먼저 robots.txt을 존중해야합니다.