0
머리를 약간 비우십시오.치료 배포 알고리즘
EC2에서 내 프로젝트의 크롤링을 설정하고 싶습니다. 나는 결과를 위해 MySQL과 함께 Scrapy를 사용하고있다. 또한 예약 된 크롤링 (예 : 매일)을 위해 cron을 구현하고 싶습니다. 그래서 내 이해 : 나는 모든 필요한 패키지 (파이썬, MySQL은, 치료 등)와 EC2 설정; 그때 나는 거미를 만들어 시험해 본다. 그리고 그들이 일할 때 나는 크롤을 위해 나없이 일어나기 위해 크론을 셋업했다.
내가 맞았나요? Scrapyd를 사용해야합니까 아니면 단지 옵션일까요?
그래, 나 없이도 실행되도록 설정하려면 실제로 Scrapyd를 사용해야합니까? – yurashark
기본적으로, 나는 내가 할 일을 설명했지만, 나는 거미를 테스트 한 후에 Scrapyd를 사용하여 거미를 실행 한 다음 스크론을 자동화하기 위해 cron을 사용합니까? Scrapyd가 설명서에 자동 크롤링 (예 : 매시간)을 제공하는 것을 보지 못했거나 거기에 누락 된 항목이 있습니까? – yurashark
실제로 scrapyd가 필요하지 않습니다. 'scrapy crawl'스케줄을 잡을 수 있습니다. 그러나 scrapyd는 API 및 웹 모니터링과 같은 다른 기능을 지원할 수 있습니다. scrapyd를 선택하면 API를 사용하여 크롤링을 시작해야합니다 (아마도 'curl'을 사용하여). –
masnun