scrapy-spider

4열

3답변

다른 도메인 아래에서 웹 페이지를 가져 오려면 명령 "scrap crawl myspider"아래에서 다른 스파이더를 사용해야한다는 의미입니다. 그러나 웹 페이지의 내용이 다르기 때문에 다른 파이프 라인 논리를 사용하여 데이터를 데이터베이스에 저장해야합니다. 그러나 모든 스파이더는 settings.py에 정의 된 모든 파이프 라인을 거쳐야합니다. 각 스파이더

2열

1답변

치료에서 쿠키를 사용하는 올바른 형태는 무엇입니까

저는 초보자입니다. 쿠키를 사용하는 웹에서 치료를하고 있습니다. 쿠키가 없어도 웹에서 데이터를 얻을 수 있기 때문에 이것은 나에게 문제입니다. 쿠키가있는 웹 데이터를 얻는 것이 어렵습니다. 는이 코드 구조를 가지고 class mySpider(BaseSpider): name='data' allowed_domains =[] start

8열

1답변

난 단지 POST 데이터를 지원하는 웹 사이트를 크롤링 할 방법 scrapy 거미

의 start_urls에 포스트 데이터를 전송하는 방법. 모든 요청에서 게시 데이터에 쿼리 매개 변수 을 보내려고합니다. 이것을 달성하는 방법?

1열

1답변

파이썬 스크립트에서 실행중인 스크립트

필자는 파이썬 스크립트 파일에서 데이터를 가져와 내 db에 저장해야하기 때문에 치료를 실행하려고했습니다. 내가 scrapy 명령을 실행할 때 는 scrapy crawl argos 스크립트가 실행 잘하지만 때 http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script 내

2열

1답변

Selenium HTML 문자열을 Scrapy에 전달하여 Scrapy에 URL을 추가하십시오.

저는 Python, Scrapy 및 Selenium을 처음 사용합니다. 따라서 귀하가 제공 할 수있는 도움이 가장 감사 할 것입니다. 저는 Selenium에서 얻은 HTML을 페이지 소스로 사용하여 Scrapy Response 객체로 처리 할 수 있기를 바랍니다. 주된 이유는 Selenium Webdriver 페이지 소스의 URL을 Scrapy가 구문

4열

1답변

치료 용 웹 크롤러에서 오류 발생

안녕하세요. 다음 코드를 구현하려고했습니다 .. from scrapy.http import Request 를 또는, 또한 "바로 가기"수입이 : from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from bs4 import BeautifulSoup