scrapy

    0

    1답변

    예 : URL이 http://www.wandoujia.com/search?key=saber 새 URL http://www.wandoujia.com/search/3161097853842468421으로 리디렉션됩니다. 치료 URL redirectMiddleware의 process_request()에 새 URL을 가져 오시겠습니까? class RedirectMi

    0

    1답변

    Scrapy를 사용하여 이진 파일을 메모리로 읽어 들이고 내용을 추출하려면 pdf를 다운로드해야합니다. 나는 PDF가 보이는 페이지에 포함되어 있음을 깨닫게 같은 : 나는 HTTP의 scrapy의 response.body을 열 <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/D

    1

    1답변

    나는 많은 양의 데이터를 다운로드하기 위해 치료를 사용하고 있습니다. 기본 16 동시 요청을 사용합니다. 가이드에서 알 수 있듯이 공유 변수에서 데이터를 수집하는 파이프 라인 방법 process_item을 사용합니다. 그리고 close_spider에 데이터를 SQL에 저장하십시오. 너무 큰 웹 사이트를로드하면 시스템 메모리가 모두 손실됩니다. 이 문제를 어

    0

    1답변

    3 단계 재귀를 구현하여 URL의 시드 목록을 생성 한 다음 각 URL에서 정보를 스크랩했습니다. 내 시스템의 모든 코어를 활용하여 크롤링 속도를 높이려면 multiprocessing을 사용하고 싶습니다. 지금까지 구현 한 크롤러 코드는 다음과 같습니다. # -*- coding: utf-8 -*- import scrapy from scrapy.selec

    0

    1답변

    각 페이지에 구문 분석이 필요한 URL 목록이있는 페이지 목록을 크롤링하고 있습니다. 이 첫 번째 페이지를 반복하고 있지만 크롤링을 중단해야하는시기를 미리 알지 못합니다. 예를 들어이 하나 여전히 구문 분석하는 것입니다 http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstCon

    0

    1답변

    예정된 시간에 거미를 여러 번 크롤링하고 싶습니다. 다음 크롤링 시간은 첫 번째 크롤링이 완료된 후에 결정됩니다. 당신은 외부 모듈 일정 시도를 줄 수 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name = "quotes" global spidersQ

    0

    1답변

    나는 목록 페이지를 파싱하고 JSON 출력을 생성한다고 말한다. 끝에 모든 물건을 구문 분석 할 때, 나는 최종 긁힌 결과에 일부 작업을 실행하려면. Scrapy에서 어떻게 할 수 있습니까? 나는 process_item에 대해 알고 있지만 반복의 각 항목에 대해 작동합니다. 내가 찾은 닫힌 것은 close_spider 이었지만, 실행하면 scrapy cra

    0

    1답변

    나는 계획대로 달릴 거미를 가지고있다. 스파이더 입력은 날짜를 기반으로합니다. 마지막으로 긁힌 날짜부터 오늘 날짜까지. 그래서 문제는 Scrapy 프로젝트 내에서 마지막으로 긁히는 날짜를 저장하는 방법입니다. pkjutil 모듈을 사용하여 치료 설정에서 데이터를 가져 오는 옵션이 있지만 해당 파일에 데이터를 쓰는 방법에 대한 문서에서 참조를 찾지 못했습니다

    0

    1답변

    간단한 링크를 사용하여 각 링크의 링크 목록과 데이터를 스크랩하려고하는데 문제가 있습니다. 스크립트를 다시 만들면 새 URL을 가져 오는 요청을 보내지 만 크롤링을 실행하면 링크에서 데이터가 다시 반환되지 않습니다. 내가 얻은 유일한 데이터는 링크로 가기 전에 긁힌 시작 URL에서 가져온 것입니다. 링크에서 데이터를 긁어 내려면 어떻게해야합니까? 대신 ur

    0

    1답변

    은 내가 각 사용자의 웹 페이지에서 내용을 추출하기위한 XPath를 사용하고 등 최신 을, 사용자 이름, upvotes 같은 몇 가지 세부 사항을 추출 가입 Scrapy 크롤러를 사용하고 있습니다. 코드 : import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http impor