2017-11-15 18 views
0

(이전에) 작동중인 웹 사이트 크롤러를 업데이트하는 중입니다. 내가 크롤링 한 웹 사이트가 더 엄격한 금지 규칙을 도입 한 것으로 보입니다. 그래서이 문제를 회피하기위한 시도로 Crawlera를 사용하기 시작했습니다.Crawlera 커스터마이징 커미션 금지 규칙

현재 제가 겪고있는 문제는 대상 웹 사이트가 표준 HTML 페이지에 302를 수행하는 비표준 금지 접근법을 사용하고 있다는 것입니다. Crawlera는 이것을 금지로 탐지하지 않고 즉시 크롤링을 중지합니다. Crawlera가 금지로 탐지 한 것을 사용자 정의 할 수있는 방법이 있습니까? 아니면 다른 접근 방법을 조사해야합니까?

답변

2

나는 당신이 그들 시스템에 규칙을 삽입하도록 요청할 수도 있고 계획에 따라 자신의 규칙을 사용자 정의 할 수있는 방법을 제공해야한다고 생각한다. (그래도 지원을 요청할 수는있다. .

나는 그것이 최선의 방법이라고 말하고 싶지 않다면 자신의 Downloader Middlewares을 생성하여 리디렉션이 발생하면 다시 시도하는 것이 좋습니다. crawlera이 금지 조치를받을 때 수행하는 작업은 n 번 (헤더에서도 설정할 수 있음)이기 때문에 재 시도를 0으로 설정하고 응답 내용에 따라 직접 처리해야합니다.

+0

완벽하게 맞았습니다. 지원 티켓을 통해이를 해결하고 시스템에 해당 규칙을 추가 할 수있었습니다. – Miek