필자는 속도를 높이기 위해 약 10M 페이지에서 실행되도록 계획된 멀티 스레드 크롤러를 작성하려고합니다. 다른 페이지 동시성을 10 ~ 10 개 정도 가져와야합니다.각 스레드마다 다른 프록시를 사용하는 멀티 스레드 크롤러가 올바른 방법일까요?
각 크롤러 스레드는 다른 프록시를 사용하여 다른 쪽 큐에 결과를 푸시합니다. 큐에서 결과를 가져 와서 분석 결과를 DB.
올바른 접근 방식입니까? 대기열에 너무 많은 결과를 저장하는 데 문제가 있습니까? 자물쇠에 대해 걱정해야합니까? (대기열 모듈 사용). 내 요구 사항에 가장 적합한 HTTP 라이브러리는 무엇입니까? (httplib2/urllib2).
각 스레드를 만들 때 요청 객체의 새 인스턴스를 각 스레드에 전달해야합니까? 아니면 요청 객체를 이동하고 스레드의 "getPage"함수를 사용해야합니까?
감사합니다.