scrapy

2열

2답변

를 사용하는 보안 URL에서 페이지를 긁어내는 것은 : 그것은 안전하고, 보이는 https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0 그것은 리퍼러를 요구처럼. wget 또는 httplib2를 사용하여 아무 것도 얻을 수 없습니다. 이 페이지를 살펴보면 목록이 표시되며 브라우저에

12열

1답변

Python Scrapy, 항목에 파이프 라인을 정의하는 방법은 무엇입니까?

다른 사이트를 크롤링하기 위해 scrapy를 사용하고 있습니다 (다른 정보가 추출 됨). 글쎄, 예를 들어 일반 파이프 라인 (대부분의 정보가 동일합니다)이지만 크롤링 중입니다. 일부 Google 검색 응답과 파이프 라인은 달라야합니다. 예를 들어 : 내가하는 파이프 라인 구글 거미를 지정할 수있는 방법 .... GenericItem는 GenericPipe

2열

3답변

Scrapy 거미 인덱스 오류

이것은 내가 Scrapy 프레임 워크 내에서 작성하는 노력했습니다 Spyder1에 대한 코드 : >>> hxs.select( ... '//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairi

5열

1답변

Scrapy BaseSpider : 어떻게 작동합니까?

이것은 Scrapy 튜토리얼에서 BaseSpider의 예는 다음과 같습니다 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): dom

9열

4답변

치료 SgmlLinkExtractor 질문

SgmlLinkExtractor를 작동 시키려고합니다. 나는 rules = (Rule(SgmlLinkExtractor(allow=("/aadler/",)), callback='parse'),) 그래서, 초기 URL이 'http://www.whitecase.com/jacevedo/' 내가이 allow=('/aadler',)를 입력하고 기대하고 입력 Sgm

10열

1답변

치료 SgmlLinkExtractor가 허용 된 링크를 무시합니다

Scrapy 설명서에서 this spider example을 살펴보십시오. 설명은 다음과 같습니다. 이 스파이더는 카테고리 링크 및 항목 링크를 수집하고 example.com의 홈페이지를 크롤링하고 parse_item 메소드를 사용하여 구문 분석을 시작합니다. 각 항목 응답에 대해 XPath를 사용하여 HTML에서 일부 데이터가 추출되고 항목이 채워집니다.

7열

3답변

문서 가져 오기 DOCTYPE with BeautifulSoup

BeautifulSoup과 함께 scrapy을 사용하여 땜질을 시작했습니다. 매우 명확한 것이 빠져 있는지 궁금하지만, 반환 된 doctype을 얻는 방법을 찾지 못했습니다. html 문서를 생성합니다. BeautifulSoup로를 사용에서 선언 된 문서 타입을 추출하는 방법이 경우이 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML