문제가 있습니다.로봇으로 인식 된 정적 IP에서 크롤링
내 웹 크롤러는 집 및 대학에서 제대로 실행 내가 필요로하는 페이지/pgol에 /와 robots.txt에이 말한다하더라도 : 나는 그것을 실행할 때
# File controlled by PUPPET: do not modify!!!
# /robots.txt file for http://www.paginegialle.it
User-Agent: bingbot
Crawl-delay: 30
User-Agent: msnbot
Crawl-delay: 30
User-agent: *
Disallow: /pgol/
Disallow: /pg/cgi/
Disallow: /pgolfe/
Disallow: /info/*.html
User-Agent: bingbot
Crawl-delay: 30
User-Agent: msnbot
Crawl-delay: 30
Sitemap: http://www.paginegialle.it/sitemap.xml
Sitemap: http://www.paginegialle.it/sitemap_fe.xml
을하지만, 직장에서 사이트가 로봇으로 즉시 나를 인식하고 나에게이 페이지를 보내
<!DOCTYPE html>
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?Ref=/pgol/4-Benzinaio/3-Roma/p=1?mr=50&distil_RID=06AFED2E-B651-11E3-8450-306F5DBA1712" />
<script type="text/javascript" src="/ga.137584219024.js?PID=6D4E4D1D-7094-375D-A439-0568A6A70836" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#centersf323034b,#Freddy231a90d5,#category58c315d5,#Freddy231a90d5{display:none!important}</style></head>
<body>
<div id="distil_ident_block"> </div>
<div id="d__fFH"><OBJECT id="d_dlg" CLASSID="clsid:3050f819-98b5-11cf-bb82-00aa00bdce0b" width="0px" height="0px"></OBJECT><span id="d__fF"></span></div></body>
</html>
난이 CAU 생각을 제 동료가 말하길 많은 요청을했고 그 서버는 IP를 나쁜 로봇으로 등록했습니다.
나는 서버의 효과적인 기능이 무엇인지 모르겠다. 그래서 내가 방금 말한 것은 잘못 될 수있다.
난 당신이 나에게 상황을 설명 할 수 Google 코드
에서 특정 crawler4j에, 자바를 사용하고 있는데 당신은 나에게 어떤 솔루션을 제안 할 수 있습니까?
웹 크롤러가 로봇이지만 사이트가 로봇에 의해 크롤링되기를 원하지 않습니다. 아마도 당신이 일하는 곳을 바꿀 필요가있을 것입니다. – Jodrell
나는 해킹 중이며, 금이 간다. 저는 웹 사이트를 만드는 소프트웨어 하우스에서 일하고 정보를 훔치고 싶지 않습니다. 저는 보안의 한계를 테스트하고 그것을 향상시키는 방법을 배워야합니다. 그래서 ... 무슨 일이 일어 났는지 설명해 주시겠습니까? 왜 다른 곳에서 작동합니까? – Baldo
프록시를 사용해 보셨습니까? – Oleg