최근에 scrapyd에 작업 스크랩을 게시했습니다. 스크래핑을 실행할 때 아래에 오류 메시지가 표시됩니다. 내가이 폐쇄 문제 검토 : https://github.com/scrapy/scrapy/issues/86 및 워드 프로세서 당 권장되는 수정 프로그램을 구현 : http://scrapyd.readthedocs.org/en/latest/config.htm
여러 개의 spiders가 여러 인스턴스 (4)에서 동시에 실행되었습니다. 모두 거의 100 % CPU 사용량을 사용하고 있습니다. scrapyd를 사용하여 배포했습니다. max_concurrent_requests, CONCURRENT_REQUESTS, CONCURRENT_REQUESTS_PER_DOMAIN과 같은 scrapyd 설정을 최소한으로 변경해 보
나는 scrapy-elasticsearch를 사용하는 slyd로 만든 거미를 구성하기 위해 노력하고있어, 그래서 그것을 구성하는 -d parameter=value을 보내고있다 : curl http://localhost:6800/schedule.json -d project=myproject -d spider=myspider -d setting=CLOSESPI
일부 청취 오류를 일으킨 Scrapy 스파이더 배포 문제가있는 것으로 보입니다. 이전 답변 중 하나를 성공적으로 사용할 수 없었지만 문제가 있거나 수정 사항이 자세히 설명되지 않았습니다. 어제 프로젝트가 업로드되었고 배포 명령이 작동했습니다. Scrapy 0.24.4 - no active project
Unknown command: deploy
Us
여러 개의 거미가있는 단일 치료 프로젝트가 있습니다. 이 프로젝트는 scrapyd 인스턴스에서 호스팅됩니다. 프로젝트 settings.py 파일에서 DOWNLOADER_MIDDLEWARES와 같은 설정을 동적으로 변경할 수 있어야합니다. scrapyd 인스턴스에 요청을 보낼 때이 설정을 변경할 수 있습니까? 여러 프로젝트를 만들지는 않으므로 프로젝트간에 공
EC2에서 크롤러를 예약하고 출력을 csv 파일 (cppages-nov.csv)로 내보내려는 중 jobdir encase를 만드는 동안 크롤링을 일시 중지해야하지만 파일을 만들지 않습니다. 정확한 사료 수출을 사용하고 있습니까? curl http://awsserver:6800/schedule.json -d project=wallspider -d spider