scrapy

8열

2답변

저는 Scrapy 프로젝트를 가지고 있고 Django 모델 정의 (DjangoItem을 사용하지 않고 있습니다)에서 출력 항목을 오브젝트로 저장하려고합니다. here으로 장고 설정을 가져오고 있습니다.이 from my_django_project.apps.my_books.models import Book, Category, Image class Djang

2열

1답변

치료 크롤링 : 오류 : 해당 옵션 없음 : -o

scrapy crawl openings -o items.json -t json 튜토리얼에서 언급 한 scrapy crawl openings -o items.json -t json 명령을 실행하면 다음과 같이 나타납니다. Usage ===== scrapy crawl [options] <spider|url> ... crawl: error: no

0열

1답변

치료 스크립트는

이라는 cron 전용 생성자에서 호출되며 crontab 항목의 명령 줄로 사용되는 쉘 스크립트를 통해 호출됩니다. 쉘 스크립트 보이는 같은 : scrapy 기어 targethost.com 시간이 때문이다하고 실행했다,하지만 생성자는 (내가 디버그 출력 확인)이라고 보인다. scrapy 크롤 targethost.com &> cronlog.log 난 그냥 이유

10열

4답변

Python에서의 실행중인 작업

My Scrapy 스크립트는 명령 행에서 'one off'시나리오로 실행하면 잘 작동하는 것처럼 보이지만 동일한 Python 세션에서 코드를 두 번 실행하면이 오류가 발생합니다. "ReactorNotRestartable" 왜? 기분을 상하게하는 코드 (마지막 줄은 오류가 발생합니다) : crawler = CrawlerProcess(settings) cra

1열

2답변

url 문자열에서 scrapy.http.Response를 인스턴스화하는 방법은 무엇입니까?

내가 치료법을 사용하여 웹 사이트에서 필요로하는 데이터를 얻으려면 먼저 응답 객체를 만들어야합니다. 그래서 HtmlXpathSelector를 사용할 수 있습니다. HtmlXpathSelector는 URL 문자열을 인수로 허용하지 않습니다. 다음 코드 샘플에서는 "response2"변수가 비어 있기 때문에이를 수행하는 방법을 모른다. from scrapy.s

1열

1답변

다른 IP 주소를 치료 스파이더에 바인딩

다른 공개 IP 주소를 치료 스파이더에 바인딩하려면 어떻게해야합니까? 또한 각 소스 IP에 대한 속도 제한을 설정할 수도 있습니다 (예 : CONCURRENT_REQUESTS_PER_SOURCE_IP). 치료 문서에서 CONCURRENT_REQUESTS_PER_DOMAIN 및 CONCURRENT_REQUESTS_PER_IP는 모두 대상 도메인과 대상 IP에

6열

1답변

테라피를 프레임 워크와 함께 사용하기

웹 사이트를 크롤링하려고합니다. 봇을 멈추게 할 정도로 정교합니다. 스팸이 멈춘 후 몇 가지 요청 만 허용하는 것입니다. 질문 1 : Scrapy가 중단되면 같은 지점에서 내 크롤링 프로세스를 다시 시작할 수 있습니다. 이 문제를 제거하기 위해, 나는 내 설정이 BOT_NAME = 'MOZILLA' BOT_VERSION = '7.0' SPIDER_MO

0열

1답변

Scrapy로 PDF 파일 다운로드

나는 Scrapy, Python 웹 스크래핑 프레임 워크를 사용하여 사이트에서 pdf 파일을 긁어 모으고 있습니다. 사이트는 pdf를 다운로드 할 수 있도록 동일한 세션을 따라야합니다. 모두 자동화 되었기 때문에 Scrapy와 잘 작동하지만 몇 초 후에 스크립트를 실행하면 내 세션없이 직접 PDF에 액세스하려고 할 때 가짜 PDF 파일을 제공하기 시작합니다

0열

1답변

Python Scrapy 스크립트에서 exe 파일을 만드는 방법은 무엇입니까?

나는 Scrapy 스크립트를 가지고 있으며 정상적으로 작동합니다. 친구에게 배포하려면 Scrapy에 대해 잘 모르기 때문에 실행 가능해야합니다. 누군가가 Scie 스크립트를 exe 파일로 변환하는 법을 말해 줄 수 있습니까? 이와 관련하여 py2exe를 적용 할 수 있습니까?

0열

2답변

치료 SgmlLinkExtractor 임의의 URL 추가

어떻게 SgmlLinkExtractor에 URL을 추가합니까? 즉, 콜백을 실행하기 위해 임의의 URL을 어떻게 추가합니까? 예로 들어 dirbot을 이용하여 정교 : https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py parse_category 만 SgmlLinkExtracto