를 사용하는 보안 URL에서 페이지를 긁어내는 것은 : 그것은 안전하고, 보이는 https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0 그것은 리퍼러를 요구처럼. wget 또는 httplib2를 사용하여 아무 것도 얻을 수 없습니다. 이 페이지를 살펴보면 목록이 표시되며 브라우저에
다른 사이트를 크롤링하기 위해 scrapy를 사용하고 있습니다 (다른 정보가 추출 됨). 글쎄, 예를 들어 일반 파이프 라인 (대부분의 정보가 동일합니다)이지만 크롤링 중입니다. 일부 Google 검색 응답과 파이프 라인은 달라야합니다. 예를 들어 : 내가하는 파이프 라인 구글 거미를 지정할 수있는 방법 .... GenericItem는 GenericPipe
이것은 내가 Scrapy 프레임 워크 내에서 작성하는 노력했습니다 Spyder1에 대한 코드 : >>> hxs.select(
... '//td[@class="altRow"][1]/a/@href').re('/.a\w+')
[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairi
이것은 Scrapy 튜토리얼에서 BaseSpider의 예는 다음과 같습니다 from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
dom
Scrapy 설명서에서 this spider example을 살펴보십시오. 설명은 다음과 같습니다. 이 스파이더는 카테고리 링크 및 항목 링크를 수집하고 example.com의 홈페이지를 크롤링하고 parse_item 메소드를 사용하여 구문 분석을 시작합니다. 각 항목 응답에 대해 XPath를 사용하여 HTML에서 일부 데이터가 추출되고 항목이 채워집니다.
BeautifulSoup과 함께 scrapy을 사용하여 땜질을 시작했습니다. 매우 명확한 것이 빠져 있는지 궁금하지만, 반환 된 doctype을 얻는 방법을 찾지 못했습니다. html 문서를 생성합니다. BeautifulSoup로를 사용에서 선언 된 문서 타입을 추출하는 방법이 경우이 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML