2017-11-20 46 views
0

나는 치료법을 배우고 있으며이 문제를 파악하는 데 어려움을 겪고 있습니다. 내 거미는 macys 웹 사이트를 크롤링하지 않습니다 및 다음과 같은 오류 던지는 유지 : 지금까지 시도했습니다치료 Twisted ConnectionLost 오류

[<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>] 

것들 :

  1. 설정 헤더를이 스레드 당 순종 robotstxt : Scrapy Shell: twisted.internet.error.ConnectionLost although USER_AGENT is set
  2. 이 스레드마다 사용자 에이전트 변경 : How to prevent a twisted.internet.error.ConnectionLost error when using Scrapy?
  3. 암호 : <이 스레드마다 2 : Scrapy twisted connection lost in non-clean fashion. No proxy. Already tried headers
  4. Monkeypatch : Twisted Python Failure - Scrapy Issues

가 나는 또한 명령 프롬프트에 scrapy 쉘 "www.macys.com"을 확인하고 같은 오류가 발생합니다. 그래서 나는 그 문제가 내 거미와 관련이 없다고 생각합니다. 누군가 제발 도와 줄 수 있니?

+0

은 여전히에서 웹 사이트에 액세스 할 수 네 항해자? –

답변

0

귀하의 IP가 스 크레이퍼를 시작한 것 같습니다. 블랙리스트에 올렸습니다.

다음과 같은 읽어보십시오 : 당신은 조정 the settings scrapy에 의해 출력 요청의 수와 직결를 할 수 있습니다, 또한 https://doc.scrapy.org/en/latest/topics/practices.html#avoiding-getting-banned

: CONCURRENT_REQUESTS, DOWNLOAD_DELAY을 등

+0

내 USER_AGENT를 주석 처리했으며 스크립트가 작동했습니다. 왜 그런지 알기나 해? USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3, Win64, x64) AppleWebKit/537.36 (Gecko와 같은 KHTML) Chrome/37.0.2049.0 Safari/537.36' – user6055239