scrapy-spider

0열

1답변

나는 아주 간단한 Scrapy + Splash 프로젝트를 개발하여 자바 스크립트 웹 사이트를 크롤링합니다. 이건 내 코드입니다 : splashtest.py : import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash

0열

2답변

CSVFeedSpider를 사용하는 중에 오류가 발생했습니다.

로컬 CSV 파일 (foods.csv)을 스크래핑하는 데 CSVFeedSpider을 사용하고 있습니다. 여기 그것이 : from scrapy.spiders import CSVFeedSpider from foods_csv.items import FoodsCsvItem class FoodsSpider(CSVFeedSpider): name = 'f

0열

1답변

Scrapy + 스플래쉬

내가 페이지의 내용의 대부분이 동적으로 JS에 의해 렌더링 scrapy 및 시작를 사용하여 전자 상거래 사이트를 폐기하려고, 나는에 시작을 사용하고 자바 스크립트 데이터를 렌더링 데이터를 가져옵니다. 가격 데이터를 제외한 다른 모든 데이터를 가져올 수 있습니다. <div class="grid-row rendered"> <span data-id="f

3열

1답변

CrawlerProcess가 CrawlSpider로 데이터를 저장하지 않음

다음 코드가 실행되면 오류없이 파일이 생성됩니다. 그러나 json 파일에는 저장되지 않습니다. 데이터를 다운로드하는 데 방해가되었던 자동 스로틀을 사용 중지했지만 문제를 해결하지 못했습니다. Scrapy의 == 1.4.0 class MySpider(CrawlSpider): name = "spidy" allowed_domains = ["cn

2열

2답변

Scrapy :있는 CmdLine를 통해 같은 파이썬 과정에서 여러 거미를 실행하면 다음

실패 코드입니다 : 나는 scrapy 프로젝트에서 같은 주요 포털 내에서 여러 거미를 실행하려는 if __name__ == '__main__': cmdline.execute("scrapy crawl spider_a -L INFO".split()) cmdline.execute("scrapy crawl spider_b -L INFO".spli

0열

1답변

Scrapy : 크롤링 확인 및 중지 방법

각 페이지에 구문 분석이 필요한 URL 목록이있는 페이지 목록을 크롤링하고 있습니다. 이 첫 번째 페이지를 반복하고 있지만 크롤링을 중단해야하는시기를 미리 알지 못합니다. 예를 들어이 하나 여전히 구문 분석하는 것입니다 http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstCon

0열

1답변

예약 된 시간에 거미를 크롤링

예정된 시간에 거미를 여러 번 크롤링하고 싶습니다. 다음 크롤링 시간은 첫 번째 크롤링이 완료된 후에 결정됩니다. 당신은 외부 모듈 일정 시도를 줄 수 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name = "quotes" global spidersQ

0열

1답변

최종 스크래퍼를 처리하는 방법이 스크래치가됩니까?

나는 목록 페이지를 파싱하고 JSON 출력을 생성한다고 말한다. 끝에 모든 물건을 구문 분석 할 때, 나는 최종 긁힌 결과에 일부 작업을 실행하려면. Scrapy에서 어떻게 할 수 있습니까? 나는 process_item에 대해 알고 있지만 반복의 각 항목에 대해 작동합니다. 내가 찾은 닫힌 것은 close_spider 이었지만, 실행하면 scrapy cra

0열

1답변

주기 구문 오류 - XPath를

은 내가 각 사용자의 웹 페이지에서 내용을 추출하기위한 XPath를 사용하고 등 최신 을, 사용자 이름, upvotes 같은 몇 가지 세부 사항을 추출 가입 Scrapy 크롤러를 사용하고 있습니다. 코드 : import scrapy from scrapy.selector import HtmlXPathSelector from scrapy.http impor

0열

1답변

액세스 파이프 라인 파이프 라인 클래스

변수 self.cursor에 액세스하여 활성 postgreSQL 연결을 사용하려고하지만 파이프 라인 클래스의 치료 인스턴스에 액세스하는 방법을 파악할 수 없습니다. class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.conn