scrapyd

    1

    1답변

    scrapyd가 제어하는 ​​스파이더를 설치/활성화하는 적절한 방법은 무엇입니까? scrapyd-deploy를 사용하여 새로운 스파이더 버전을 설치합니다. 작업이 현재 실행 중입니다. cancel.json을 사용하여 작업을 중단 한 다음 새 작업을 예약해야합니까?

    0

    1답변

    더 나은 방법으로 Scrapy 스파이더를 관리하기 위해 Scrapyd을 설정했으며 실제로 그렇게했습니다. Scrapyd 서버가 scrapyd의 작업을 조작하기 위해 API를 사용할 수 있다는 것을 알게되는 사람을 두려워하여 보안을 유지하는 방법에 대해 의문입니다. Scrapyd API와 상호 작용할 수있는 외부 IP가 하나 밖에 없으므로 다른 시스템에서 액

    1

    1답변

    Scrapyd 자체와 마찬가지로 (Scrap Crawl Spider -s JOBDIR = jobdir/spider-1) Scrapyd를 일시 중지/계속 크롤링 할 법적 방법이없는 것처럼 보입니다. 내가 찾은 유일한 해결 여기이었다 https://groups.google.com/forum/#!msg/scrapyusers/2VjEBEbOo7s/MSH4GJc2B

    0

    1답변

    scrapyd 프로젝트에 scrapy 프로젝트를 배포하는 방법을 배우고 있습니다. 내 scrapyd 서버 웹 인터페이스에 'items'옵션이 없습니다. 다음과 같은 두 가지 사진과 같이 : 그것은이 하나 scrapyd web interface with items option 같이하지만 내가 가진 것은 이것입니다한다 - '항목'옵션 누락 scrapyd web

    0

    1답변

    중국어 웹 사이트를 고칩니다. 나는 settings.py 파일에 FEED_EXPORT_ENCODING='utf-8' 있습니다. 내가 scrapy crawl myscraper -o output.json 를 통해 내 스크레이퍼를 실행하면 다음 나의 출력 파일은 정확한 중국어를 보여줍니다. 그러나 Scrapyd을 통해 스크래퍼를 시작하면 http://my-web

    0

    1답변

    크롤링 및 스크래핑 요구 사항이있는 Scrapy를 발견했습니다. 그러나 응용 요구 조건에 따라 나는 모 놀리 식 접근법을 사용하지 않기로 결정했다. 모든 것은 서비스를 기반으로해야합니다. 그래서 두 가지 서비스를 설계하기로했습니다. 모든 URL과 HTML을 가져 오십시오. s3에 올리기. 왜 HTML에서 스크랩 항목? 간단합니다, 오늘 나는 10 항목을 스

    0

    1답변

    안녕하세요 저는 & Scrapyd를 사용하고 있으며 최근에는 정말 이상한 문제가 발생했습니다. 모든 거미가 알 수없는 시간 (일) 동안 작동 할 것이고, 그 다음에 작동이 멈출 것입니다. 내가 모든 스파이더에 대해 Connection이 거절 한 로그를 확인했을 때 우분투 인스턴스를 다시 시작하면 모든 스파이더가 다시 작동합니다 (x 일 후에 다시 실패하기

    0

    1답변

    다음 명령을 사용하여 scrapyd 내 프로젝트를 배포하려고 할 때 : scrapyd-deploy test2 -p NOAA 또는 , 내가 만든 내 거미 실행하려고 할 때 : Packing version 1478644677 Deploying to project "test" in http://localhost:6800/addversion.json Ser

    0

    1답변

    최근에 나는 scrapy를 사용하여 웹 스크래퍼를 만드는 작업을 시작했습니다. 원래 scrapyd를 사용하여 로컬로 내 scrapy 프로젝트를 배포했습니다. 내가 내장 scrapy 프로젝트는 우리의 초기 단계에있는 CSV는 for x in data: with open('missing.csv', 'ab') as fout: csvwrit

    0

    1답변

    머리를 약간 비우십시오. EC2에서 내 프로젝트의 크롤링을 설정하고 싶습니다. 나는 결과를 위해 MySQL과 함께 Scrapy를 사용하고있다. 또한 예약 된 크롤링 (예 : 매일)을 위해 cron을 구현하고 싶습니다. 그래서 내 이해 : 나는 모든 필요한 패키지 (파이썬, MySQL은, 치료 등)와 EC2 설정; 그때 나는 거미를 만들어 시험해 본다. 그리