각 스레드마다 다른 프록시를 사용하는 멀티 스레드 크롤러가 올바른 방법일까요?

필자는 속도를 높이기 위해 약 10M 페이지에서 실행되도록 계획된 멀티 스레드 크롤러를 작성하려고합니다. 다른 페이지 동시성을 10 ~ 10 개 정도 가져와야합니다.각 스레드마다 다른 프록시를 사용하는 멀티 스레드 크롤러가 올바른 방법일까요?

각 크롤러 스레드는 다른 프록시를 사용하여 다른 쪽 큐에 결과를 푸시합니다. 큐에서 결과를 가져 와서 분석 결과를 DB.

올바른 접근 방식입니까? 대기열에 너무 많은 결과를 저장하는 데 문제가 있습니까? 자물쇠에 대해 걱정해야합니까? (대기열 모듈 사용). 내 요구 사항에 가장 적합한 HTTP 라이브러리는 무엇입니까? (httplib2/urllib2).

각 스레드를 만들 때 요청 객체의 새 인스턴스를 각 스레드에 전달해야합니까? 아니면 요청 객체를 이동하고 스레드의 "getPage"함수를 사용해야합니까?

감사합니다.

2012-06-17 YSY

2012-06-17 13:25:58 astynax

Scrapy의 방법을 사용해보십시오.

다음은 여러 프록시를 사용하도록 프록시 미들웨어를 설정하는 방법을 설명하는 페이지입니다. http://mahmoud.abdel-fattah.net/2012/04/16/using-scrapy-with-different-many-proxies/

2012-06-17 14:46:11 Acorn

답변