scrapy-spider

    1

    1답변

    웹 사이트에서 데이터를 가져 오려고하는데 모든 것이 정확하고 xpath가 셸에서 테스트되었습니다. [ 내 코드에 어떤 문제가 : # -*- coding: utf-8 -*- from scrapy.contrib.spiders import CrawlSpider class KabumspiderSpider(CrawlSpider): name =

    1

    1답변

    설정 모듈의 envvar 값을 my_module.my_submodule.my_leaf_module로 설정했습니다. 내부에는 DEFAULT_REQUEST_HEADERS 사전을 포함한 많은 상수 세트가 있습니다. 어쨌든 위의 내용을 설정하고 스파이더를 지정하지 않고 원하는 샘플 URL에 대해 scrapy 쉘을 실행합니다. 시작될 때 예외 나 경고는 없지만 제공

    0

    1답변

    import scrapy from universities.items import UniversitiesItem def clean_full_name(full_name): sp = full_name.split(',') last_name = sp[0].strip() first_name = sp[1].replace('\r\n',

    3

    2답변

    나는 웹 페이지에서 다른 이름을 구문 분석하기 위해 파이썬 치료에 작은 긁개를 작성했습니다. 페이지는 페이지 매김을 통해 4 페이지를 더 통과했습니다. 페이지 전체의 총 이름은 46 개이지만 36 개의 이름을 긁어 모으고 있습니다. 스크레이퍼는 첫 번째 랜딩 페이지의 내용을 건너 뛰지만 내 스크레이퍼에서 parse_start_url 인수를 사용하여 처리했습

    2

    1답변

    나는 치료 껍질로 일하기가 매우 쉽다. 나는 많은 것을 수색했지만 scrapy 쉘에서 인쇄 명령이 무엇인지 알 수 없었다. 울부 짖는 소리를 보시면 제가 의미하는 것을 이해하실 수 있습니다. 누군가가 내가 scrapy 셸의 결과를 인쇄 할 수있는 방법으로 나에게 도움이된다면 scrapy shell http://quotes.toscrape.com/ --nol

    0

    1답변

    며칠 전 나는이 질문 : scrapy getting values from multiple sites 을 나는 WEBSITE2에 WEBSITE1에서 값을 전달하는 방법을 배웠다. 이것은 두 사이트의 수익률 정보를 허용합니다. 10 개의 다른 사이트와 같은 경우에는 해결되지 않습니다. 나는 함수에서 함수로 값을 전달할 수 있지만 바보 같다. 보다 효율적인 방법

    0

    1답변

    나는 craigslist에서 다른 카테고리를 구문 분석하기위한 스크립트를 파이썬 스크립트에 작성했습니다. 나는 스크립트를 실행하는 이상한 것들을 발견했다. 그것은 흠 잡을 데없이 불평에 빠지게됩니다. 그러나, 문제는 다음과 같습니다. items.py을 비워두면 크롤링 프로세스에 아무런 영향을 미치지 않습니다. 제 질문은 제 치료 프로젝트에서 무엇을하고 있습

    2

    1답변

    저는 이것에 상당히 익숙하며 약 1 주 동안 거미/크롤러를 조사하고 있습니다. 나는 Scrapy에서 거미를 설정 해왔다. 어제 내 완성 된 거미를 출시했습니다. 모든 것이 이제는 튀어 나오는이 오류를 제외하고는 매끄럽게 진행되는 것 같습니다. 다음 오류가 아니라 거미 같은 페이지 (또는 시간)에 4 개 개의 작업에 수신 : next_page_url = re

    0

    1답변

    모든 요청을 처리하지 않고 치료가 완료된 것 같습니다. 요청을 대기열에 넣기 전후에 로깅 중이므로 내가 알기 때문에 명확하게 볼 수 있습니다. 구문 분석 및 오류 콜백 메소드 모두에 로그인 중이며 누락 된 요청에 대해 호출 된 메소드가 없습니다. 이러한 요청에 어떻게 대응할 수 있습니까?

    1

    1답변

    자바 스크립트 사용 웹 사이트에서 다른 제품의 이름과 가격을 구문 분석하기 위해 스플래쉬 스플래시로 작업 한 것은 이번이 처음입니다. 스크립트에서 사용한 셀렉터는 완벽합니다. 셀렌을 사용하여 이미 테스트했습니다. 그러나 스크립트를 실행하면 아래와 같은 오류가 발생합니다. 내 스파이더 컬렉션의 전체 상태 인 로그 파일을 첨부했습니다. 내 스파이더를 성공적으로