다른 도메인 아래에서 웹 페이지를 가져 오려면 명령 "scrap crawl myspider"아래에서 다른 스파이더를 사용해야한다는 의미입니다. 그러나 웹 페이지의 내용이 다르기 때문에 다른 파이프 라인 논리를 사용하여 데이터를 데이터베이스에 저장해야합니다. 그러나 모든 스파이더는 settings.py에 정의 된 모든 파이프 라인을 거쳐야합니다. 각 스파이더
저는 초보자입니다. 쿠키를 사용하는 웹에서 치료를하고 있습니다. 쿠키가 없어도 웹에서 데이터를 얻을 수 있기 때문에 이것은 나에게 문제입니다. 쿠키가있는 웹 데이터를 얻는 것이 어렵습니다. 는이 코드 구조를 가지고 class mySpider(BaseSpider):
name='data'
allowed_domains =[]
start
필자는 파이썬 스크립트 파일에서 데이터를 가져와 내 db에 저장해야하기 때문에 치료를 실행하려고했습니다. 내가 scrapy 명령을 실행할 때 는 scrapy crawl argos
스크립트가 실행 잘하지만 때 http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script
내
저는 Python, Scrapy 및 Selenium을 처음 사용합니다. 따라서 귀하가 제공 할 수있는 도움이 가장 감사 할 것입니다. 저는 Selenium에서 얻은 HTML을 페이지 소스로 사용하여 Scrapy Response 객체로 처리 할 수 있기를 바랍니다. 주된 이유는 Selenium Webdriver 페이지 소스의 URL을 Scrapy가 구문
안녕하세요. 다음 코드를 구현하려고했습니다 .. from scrapy.http import Request
를 또는, 또한 "바로 가기"수입이 : from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from bs4 import BeautifulSoup