scrapy

0열

1답변

치료 redirectMiddleware의 process_request()에서 rediected URL을 얻는 방법은 무엇입니까?

예 : URL이 http://www.wandoujia.com/search?key=saber 새 URL http://www.wandoujia.com/search/3161097853842468421으로 리디렉션됩니다. 치료 URL redirectMiddleware의 process_request()에 새 URL을 가져 오시겠습니까? class RedirectMi

0열

1답변

포함 된 PDF 추출 중 - PDFInterpreterError : 알 수없는 연산자 : '\ x00'

Scrapy를 사용하여 이진 파일을 메모리로 읽어 들이고 내용을 추출하려면 pdf를 다운로드해야합니다. 나는 PDF가 보이는 페이지에 포함되어 있음을 깨닫게 같은 : 나는 HTTP의 scrapy의 response.body을 열 <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/D

1열

1답변

가장 좋은 치료

나는 많은 양의 데이터를 다운로드하기 위해 치료를 사용하고 있습니다. 기본 16 동시 요청을 사용합니다. 가이드에서 알 수 있듯이 공유 변수에서 데이터를 수집하는 파이프 라인 방법 process_item을 사용합니다. 그리고 close_spider에 데이터를 SQL에 저장하십시오. 너무 큰 웹 사이트를로드하면 시스템 메모리가 모두 손실됩니다. 이 문제를 어

0열

1답변

Python에서 멀티 프로세싱을 사용하여 Scrapy를 사용하여 수백만 개의 URL을 크롤링하는 방법?

3 단계 재귀를 구현하여 URL의 시드 목록을 생성 한 다음 각 URL에서 정보를 스크랩했습니다. 내 시스템의 모든 코어를 활용하여 크롤링 속도를 높이려면 multiprocessing을 사용하고 싶습니다. 지금까지 구현 한 크롤러 코드는 다음과 같습니다. # -*- coding: utf-8 -*- import scrapy from scrapy.selec

0열

1답변

Scrapy : 크롤링 확인 및 중지 방법

각 페이지에 구문 분석이 필요한 URL 목록이있는 페이지 목록을 크롤링하고 있습니다. 이 첫 번째 페이지를 반복하고 있지만 크롤링을 중단해야하는시기를 미리 알지 못합니다. 예를 들어이 하나 여전히 구문 분석하는 것입니다 http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstCon

0열

1답변

예약 된 시간에 거미를 크롤링

예정된 시간에 거미를 여러 번 크롤링하고 싶습니다. 다음 크롤링 시간은 첫 번째 크롤링이 완료된 후에 결정됩니다. 당신은 외부 모듈 일정 시도를 줄 수 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name = "quotes" global spidersQ

0열

1답변

최종 스크래퍼를 처리하는 방법이 스크래치가됩니까?

나는 목록 페이지를 파싱하고 JSON 출력을 생성한다고 말한다. 끝에 모든 물건을 구문 분석 할 때, 나는 최종 긁힌 결과에 일부 작업을 실행하려면. Scrapy에서 어떻게 할 수 있습니까? 나는 process_item에 대해 알고 있지만 반복의 각 항목에 대해 작동합니다. 내가 찾은 닫힌 것은 close_spider 이었지만, 실행하면 scrapy cra

0열

1답변

스파이더 런 사이에서 상태를 저장하는 방법 (scrapinghub 통해)?

나는 계획대로 달릴 거미를 가지고있다. 스파이더 입력은 날짜를 기반으로합니다. 마지막으로 긁힌 날짜부터 오늘 날짜까지. 그래서 문제는 Scrapy 프로젝트 내에서 마지막으로 긁히는 날짜를 저장하는 방법입니다. pkjutil 모듈을 사용하여 치료 설정에서 데이터를 가져 오는 옵션이 있지만 해당 파일에 데이터를 쓰는 방법에 대한 문서에서 참조를 찾지 못했습니다

0열

1답변

링크가 데이터를 가져 오지 못하는 경우

간단한 링크를 사용하여 각 링크의 링크 목록과 데이터를 스크랩하려고하는데 문제가 있습니다. 스크립트를 다시 만들면 새 URL을 가져 오는 요청을 보내지 만 크롤링을 실행하면 링크에서 데이터가 다시 반환되지 않습니다. 내가 얻은 유일한 데이터는 링크로 가기 전에 긁힌 시작 URL에서 가져온 것입니다. 링크에서 데이터를 긁어 내려면 어떻게해야합니까? 대신 ur

0열

1답변

주기 구문 오류 - XPath를

은 내가 각 사용자의 웹 페이지에서 내용을 추출하기위한 XPath를 사용하고 등 최신 을, 사용자 이름, upvotes 같은 몇 가지 세부 사항을 추출 가입 Scrapy 크롤러를 사용하고 있습니다. 코드 : import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http impor