scrapy

    2

    2답변

    를 사용하는 보안 URL에서 페이지를 긁어내는 것은 : 그것은 안전하고, 보이는 https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0 그것은 리퍼러를 요구처럼. wget 또는 httplib2를 사용하여 아무 것도 얻을 수 없습니다. 이 페이지를 살펴보면 목록이 표시되며 브라우저에

    12

    1답변

    다른 사이트를 크롤링하기 위해 scrapy를 사용하고 있습니다 (다른 정보가 추출 됨). 글쎄, 예를 들어 일반 파이프 라인 (대부분의 정보가 동일합니다)이지만 크롤링 중입니다. 일부 Google 검색 응답과 파이프 라인은 달라야합니다. 예를 들어 : 내가하는 파이프 라인 구글 거미를 지정할 수있는 방법 .... GenericItem는 GenericPipe

    2

    3답변

    이것은 내가 Scrapy 프레임 워크 내에서 작성하는 노력했습니다 Spyder1에 대한 코드 : >>> hxs.select( ... '//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairi

    5

    1답변

    이것은 Scrapy 튜토리얼에서 BaseSpider의 예는 다음과 같습니다 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): dom

    9

    4답변

    SgmlLinkExtractor를 작동 시키려고합니다. 나는 rules = (Rule(SgmlLinkExtractor(allow=("/aadler/",)), callback='parse'),) 그래서, 초기 URL이 'http://www.whitecase.com/jacevedo/' 내가이 allow=('/aadler',)를 입력하고 기대하고 입력 Sgm

    10

    1답변

    Scrapy 설명서에서 this spider example을 살펴보십시오. 설명은 다음과 같습니다. 이 스파이더는 카테고리 링크 및 항목 링크를 수집하고 example.com의 홈페이지를 크롤링하고 parse_item 메소드를 사용하여 구문 분석을 시작합니다. 각 항목 응답에 대해 XPath를 사용하여 HTML에서 일부 데이터가 추출되고 항목이 채워집니다.

    7

    3답변

    BeautifulSoup과 함께 scrapy을 사용하여 땜질을 시작했습니다. 매우 명확한 것이 빠져 있는지 궁금하지만, 반환 된 doctype을 얻는 방법을 찾지 못했습니다. html 문서를 생성합니다. BeautifulSoup로를 사용에서 선언 된 문서 타입을 추출하는 방법이 경우이 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML