scrapy

    8

    2답변

    저는 Scrapy 프로젝트를 가지고 있고 Django 모델 정의 (DjangoItem을 사용하지 않고 있습니다)에서 출력 항목을 오브젝트로 저장하려고합니다. here으로 장고 설정을 가져오고 있습니다.이 from my_django_project.apps.my_books.models import Book, Category, Image class Djang

    2

    1답변

    scrapy crawl openings -o items.json -t json 튜토리얼에서 언급 한 scrapy crawl openings -o items.json -t json 명령을 실행하면 다음과 같이 나타납니다. Usage ===== scrapy crawl [options] <spider|url> ... crawl: error: no

    0

    1답변

    이라는 cron 전용 생성자에서 호출되며 crontab 항목의 명령 줄로 사용되는 쉘 스크립트를 통해 호출됩니다. 쉘 스크립트 보이는 같은 : scrapy 기어 targethost.com 시간이 때문이다하고 실행했다,하지만 생성자는 (내가 디버그 출력 확인)이라고 보인다. scrapy 크롤 targethost.com &> cronlog.log 난 그냥 이유

    10

    4답변

    My Scrapy 스크립트는 명령 행에서 'one off'시나리오로 실행하면 잘 작동하는 것처럼 보이지만 동일한 Python 세션에서 코드를 두 번 실행하면이 오류가 발생합니다. "ReactorNotRestartable" 왜? 기분을 상하게하는 코드 (마지막 줄은 오류가 발생합니다) : crawler = CrawlerProcess(settings) cra

    1

    2답변

    내가 치료법을 사용하여 웹 사이트에서 필요로하는 데이터를 얻으려면 먼저 응답 객체를 만들어야합니다. 그래서 HtmlXpathSelector를 사용할 수 있습니다. HtmlXpathSelector는 URL 문자열을 인수로 허용하지 않습니다. 다음 코드 샘플에서는 "response2"변수가 비어 있기 때문에이를 수행하는 방법을 모른다. from scrapy.s

    1

    1답변

    다른 공개 IP 주소를 치료 스파이더에 바인딩하려면 어떻게해야합니까? 또한 각 소스 IP에 대한 속도 제한을 설정할 수도 있습니다 (예 : CONCURRENT_REQUESTS_PER_SOURCE_IP). 치료 문서에서 CONCURRENT_REQUESTS_PER_DOMAIN 및 CONCURRENT_REQUESTS_PER_IP는 모두 대상 도메인과 대상 IP에

    6

    1답변

    웹 사이트를 크롤링하려고합니다. 봇을 멈추게 할 정도로 정교합니다. 스팸이 멈춘 후 몇 가지 요청 만 허용하는 것입니다. 질문 1 : Scrapy가 중단되면 같은 지점에서 내 크롤링 프로세스를 다시 시작할 수 있습니다. 이 문제를 제거하기 위해, 나는 내 설정이 BOT_NAME = 'MOZILLA' BOT_VERSION = '7.0' SPIDER_MO

    0

    1답변

    나는 Scrapy, Python 웹 스크래핑 프레임 워크를 사용하여 사이트에서 pdf 파일을 긁어 모으고 있습니다. 사이트는 pdf를 다운로드 할 수 있도록 동일한 세션을 따라야합니다. 모두 자동화 되었기 때문에 Scrapy와 잘 작동하지만 몇 초 후에 스크립트를 실행하면 내 세션없이 직접 PDF에 액세스하려고 할 때 가짜 PDF 파일을 제공하기 시작합니다

    0

    1답변

    나는 Scrapy 스크립트를 가지고 있으며 정상적으로 작동합니다. 친구에게 배포하려면 Scrapy에 대해 잘 모르기 때문에 실행 가능해야합니다. 누군가가 Scie 스크립트를 exe 파일로 변환하는 법을 말해 줄 수 있습니까? 이와 관련하여 py2exe를 적용 할 수 있습니까?

    0

    2답변

    어떻게 SgmlLinkExtractor에 URL을 추가합니까? 즉, 콜백을 실행하기 위해 임의의 URL을 어떻게 추가합니까? 예로 들어 dirbot을 이용하여 정교 : https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py parse_category 만 SgmlLinkExtracto