나는 아주 간단한 Scrapy + Splash 프로젝트를 개발하여 자바 스크립트 웹 사이트를 크롤링합니다. 이건 내 코드입니다 : splashtest.py : import scrapy
from scrapy_splash import SplashRequest
class SplashSpider(scrapy.Spider):
name = 'splash
로컬 CSV 파일 (foods.csv)을 스크래핑하는 데 CSVFeedSpider을 사용하고 있습니다. 여기 그것이 : from scrapy.spiders import CSVFeedSpider
from foods_csv.items import FoodsCsvItem
class FoodsSpider(CSVFeedSpider):
name = 'f
내가 페이지의 내용의 대부분이 동적으로 JS에 의해 렌더링 scrapy 및 시작를 사용하여 전자 상거래 사이트를 폐기하려고, 나는에 시작을 사용하고 자바 스크립트 데이터를 렌더링 데이터를 가져옵니다. 가격 데이터를 제외한 다른 모든 데이터를 가져올 수 있습니다. <div class="grid-row rendered">
<span data-id="f
다음 코드가 실행되면 오류없이 파일이 생성됩니다. 그러나 json 파일에는 저장되지 않습니다. 데이터를 다운로드하는 데 방해가되었던 자동 스로틀을 사용 중지했지만 문제를 해결하지 못했습니다. Scrapy의 == 1.4.0 class MySpider(CrawlSpider):
name = "spidy"
allowed_domains = ["cn
실패 코드입니다 : 나는 scrapy 프로젝트에서 같은 주요 포털 내에서 여러 거미를 실행하려는 if __name__ == '__main__':
cmdline.execute("scrapy crawl spider_a -L INFO".split())
cmdline.execute("scrapy crawl spider_b -L INFO".spli
각 페이지에 구문 분석이 필요한 URL 목록이있는 페이지 목록을 크롤링하고 있습니다. 이 첫 번째 페이지를 반복하고 있지만 크롤링을 중단해야하는시기를 미리 알지 못합니다. 예를 들어이 하나 여전히 구문 분석하는 것입니다 http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstCon
예정된 시간에 거미를 여러 번 크롤링하고 싶습니다. 다음 크롤링 시간은 첫 번째 크롤링이 완료된 후에 결정됩니다. 당신은 외부 모듈 일정 시도를 줄 수 spidersQ = collections.OrderedDict()
class QuotesSpider(scrapy.Spider):
name = "quotes"
global spidersQ
나는 목록 페이지를 파싱하고 JSON 출력을 생성한다고 말한다. 끝에 모든 물건을 구문 분석 할 때, 나는 최종 긁힌 결과에 일부 작업을 실행하려면. Scrapy에서 어떻게 할 수 있습니까? 나는 process_item에 대해 알고 있지만 반복의 각 항목에 대해 작동합니다. 내가 찾은 닫힌 것은 close_spider 이었지만, 실행하면 scrapy cra
은 내가 각 사용자의 웹 페이지에서 내용을 추출하기위한 XPath를 사용하고 등 최신 을, 사용자 이름, upvotes 같은 몇 가지 세부 사항을 추출 가입 Scrapy 크롤러를 사용하고 있습니다. 코드 : import scrapy
from scrapy.selector import HtmlXPathSelector
from scrapy.http impor
변수 self.cursor에 액세스하여 활성 postgreSQL 연결을 사용하려고하지만 파이프 라인 클래스의 치료 인스턴스에 액세스하는 방법을 파악할 수 없습니다. class ScrapenewsPipeline(object):
def open_spider(self, spider):
self.connection = psycopg2.conn