파이썬에서 사이트를 크롤링하기 위해 스파이더를 작성하고 있습니다. 문제는 약 250 만 페이지를 검토해야하므로 속도 최적화에 도움이되도록 도움을 얻을 수 있습니다. 내가해야할 일은 특정 번호의 페이지를 검사하고 페이지에 대한 링크를 기록하는 것이 발견 된 경우입니다. 거미는 아주 간단하다, 다만 많은 페이지를 통해서 분류 할 필요가있다. 전 완전히 파이썬에
나는 대학을위한 데이터 시각화 프로젝트를 위해 blogger.com에서 데이터를 수집하기 위해 거미를 만들고 있기 때문에 이것을 묻습니다. 스파이더는 블로거의 browse function에서 약 17,000 개의 값을 찾고 올바른 기준에 맞는 특정 메일을 저장합니다 (익명으로). 나는 거미 (PHP로 작성)를 실행 해 왔지만 정상적으로 작동하지만 내 IP를
자바 스크립트을 사용하여 해당 항목/회사의 전화 번호를 onclick으로 표시하는 웹 사이트에서 정보를 가져 오려고합니다. PHP 컬 또는 xpath로 크롤링하면이 이벤트를 트리거하는 방법과 크롤링을 계속 유지하는 방법을 찾을 수 없습니다. 예 : 여기에 정보가 너무 function show(info_id,qpath,swimage){
expandit(in
Scrapy 설명서에서 this spider example을 살펴보십시오. 설명은 다음과 같습니다. 이 스파이더는 카테고리 링크 및 항목 링크를 수집하고 example.com의 홈페이지를 크롤링하고 parse_item 메소드를 사용하여 구문 분석을 시작합니다. 각 항목 응답에 대해 XPath를 사용하여 HTML에서 일부 데이터가 추출되고 항목이 채워집니다.
나는 현재의 연속 통합 설정에 자동화 된 통합 테스팅의 매우 간단한 계층을 추가하려고합니다. (CI는 현재 빌드 중단 만 검사합니다). 제품이 있는가하는 것입니다 : 기본 URL에서 , 스파이더 사이트 다시 & 보고 어떤 500분의 404 개 오류 코드? 로그온 단계를 추가 할 수있게하려면 페이지를 거미 수 있습니까? 내가 SilkTest & Seleniu
나는 파이썬에 큰 나사 피드 검색 스크립트가 있습니다. 제 질문은 나가는 요청을 너무 자주로드하지 않도록로드 균형을 조정할 수 있습니까? 피드 버너의 경우 사이트의 많은 부분이 피드 버너를 통해 RSS를 프록시 처리하고 많은 사이트가 피드 버너에게 도메인의 하위 도메인을 별칭으로 사용하여 사실을 모호하게하기 때문에 큰 문제가됩니다 (예 : "mysite"는
파이썬 웹 크롤러가 있는데 많은 다른 프록시 서버에 다운로드 요청을 배포하고 싶습니다. 아마도 오징어를 실행하고있을 것입니다. 예를 들어, 라운드 로빈 방식으로 작동 할 수 있습니다. 여기서 request1은 proxy1로, request2는 proxy2로 이동하고, 결국에는 돌아 다니며 돌아갑니다. 이걸 어떻게 세우는 거지? 난이도를 높이기 위해 사용 가