오픈 소스 crawler4j를 사용하여 mystore411.com에서 웹 사이트를 크롤링하려고했습니다.crawler4j : 20-30 초 동안 크롤링하면 몇 초 동안 내 IP 주소가 금지됩니다.
크롤러는 제한된 시간 (예 : 20-30 초) 동안 정상적으로 작동 한 다음 웹 사이트가 다시 크롤링되기 전에 몇 분 동안 내 주소를 금지합니다. 가능한 해결책을 찾을 수 없었습니다.
여기의 robots.txt를 통해 가서 내가 그에서 가져온 것입니다 : 어떤 대안이 있다면
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /js/
Disallow: /css/
Disallow: /images/
User-agent: Slurp
Crawl-delay: 1
User-agent: Baiduspider
Crawl-delay: 1
User-agent: MaxPointCrawler
Disallow:/
User-agent: YandexBot
Disallow:/
제안하십시오.
내가 그 제안을 그들이 크롤러를 멈추게하는 이유가 있습니다. 그러므로 허가 없이는 모든 리소스를 악용하는 것이 좋습니다. –
@ TheHeadRush 예. 당신 말이 맞아요. 그러나 여전히, robots.txt를 볼 수있는 가능한 해결책이 있습니까? – user3311019
그래서 ... 당신은 자원을 훔치는 중임을 알고 있으며 여전히 누군가의 도움이 필요하십니까? –