현재 Scrapy Python 라이브러리를 사용하고 있습니다.치료 DOWNLOAD_DELAY이 순차적 리퀘스트를 위해 작동하지 않습니다.
먼저 Fitbit의 로그인 페이지 (https://www.fitbit.com/login)에 대한 FormRequest 호출을 작성하여 로그인하십시오. 그러면 Fitbit의 API (https://api.fitbit.com)에 100 건의 요청이 가깝습니다.
API를 강조하지 않으려면 (그리고 금지되지 않도록) settings.py 파일에서 DOWNLOAD_DELAY를 사용하여 요청 사이에 지연을 설정하고 싶습니다. 그러나 그것은 작동하지 않습니다.
튜토리얼 (http://scrapy.readthedocs.io/en/latest/intro/tutorial.html)에서 테스트 중이 었는데 제대로 작동하고있었습니다.
당신은 어떻게 생각하십니까? API (이러한 종류의 액세스를 처리해야 함)를 요청했기 때문입니까?
편집 :
class FitbitSpider:
start_urls = ["https://www.fitbit.com/login"]
def parse(self, response):
yield scrapy.FormRequest(url,formdata,callback=after_login)
def after_login(self, response):
for i in range(100):
yield scrapy.Request("https://api.fitbit.com/[...]")
편집 2 :
BOT_NAME = 'fitbitscraper'
SPIDER_MODULES = ['fitbitscraper.spiders']
NEWSPIDER_MODULE = 'fitbitscraper.spiders'
DOWNLOAD_DELAY = 20 #20 seconds of delay should be pretty noticeable
튜토리얼은 무엇입니까? 어떤 코드를 테스트 했습니까? 의사 솔루션이 필요하지 않은 경우 의사 코드가 아닌 실제 코드를 표시하는 것이 좋습니다. – furas
http://scrapy.readthedocs.io/ko/latest/intro/tutorial.html. 지연이 관찰되지 않는 한, 스크래핑이 제대로 작동합니다. 그리고 코드가 300 줄이기 때문에 여기에 줄 수는 없습니다 (주제와 관련이 없습니다.) – Xema
'settings.py'를 보여주십시오. 또한 작동하지 않는다는 것을 어떻게 알았습니까? 완전한 정보를 제공하는 것이 가장 좋습니다. –