2017-02-26 5 views
0

머리를 약간 비우십시오.치료 배포 알고리즘

EC2에서 내 프로젝트의 크롤링을 설정하고 싶습니다. 나는 결과를 위해 MySQL과 함께 Scrapy를 사용하고있다. 또한 예약 된 크롤링 (예 : 매일)을 위해 cron을 구현하고 싶습니다. 그래서 내 이해 : 나는 모든 필요한 패키지 (파이썬, MySQL은, 치료 등)와 EC2 설정; 그때 나는 거미를 만들어 시험해 본다. 그리고 그들이 일할 때 나는 크롤을 위해 나없이 일어나기 위해 크론을 셋업했다.

내가 맞았나요? Scrapyd를 사용해야합니까 아니면 단지 옵션일까요?

답변

0

당신을 위해 Scrapy를 실행할 프로그램이 필요합니다. scrapy 명령을 사용하거나 사용자 고유의 스크립트를 작성하거나 scrapyd를 사용할 수 있습니다. 나는 개인적으로 scrapyd를 좋아한다. 왜냐하면 그것은 일을 더 쉽게 만든다. (멋진 API을 포함해서).

+0

그래, 나 없이도 실행되도록 설정하려면 실제로 Scrapyd를 사용해야합니까? – yurashark

+0

기본적으로, 나는 내가 할 일을 설명했지만, 나는 거미를 테스트 한 후에 Scrapyd를 사용하여 거미를 실행 한 다음 스크론을 자동화하기 위해 cron을 사용합니까? Scrapyd가 설명서에 자동 크롤링 (예 : 매시간)을 제공하는 것을 보지 못했거나 거기에 누락 된 항목이 있습니까? – yurashark

+0

실제로 scrapyd가 필요하지 않습니다. 'scrapy crawl '스케줄을 잡을 수 있습니다. 그러나 scrapyd는 API 및 웹 모니터링과 같은 다른 기능을 지원할 수 있습니다. scrapyd를 선택하면 API를 사용하여 크롤링을 시작해야합니다 (아마도 'curl'을 사용하여). – masnun