전체적으로 웹 사이트를 크롤링하기 위해 Scrapy를 기반으로 한 Python 함수

나는 최근에 매우 효율적이라고 생각하는 Scrapy을 발견했습니다. 그러나, 나는 파이썬으로 작성된 더 큰 프로젝트에 그것을 어떻게 포함시키는지를 정말로 보지 못했습니다. 나는 정상적인 방법으로 거미를 만들 수 있지만, 기능이 주어진 URL에 그것을 실행할 수 있도록하고 싶습니다 주어진 도메인에 크롤링 프로세스를 시작하고 모든 페이지가 된 경우에만 중지 할 전체적으로 웹 사이트를 크롤링하기 위해 Scrapy를 기반으로 한 Python 함수

start_crawl(url)

본.

출처

2010-07-21 Mermoz

치료는 훨씬 더 복잡합니다. 여러 프로세스를 실행하고 다중 threating을 사용합니다. 그래서 실제로 파이썬 함수로 사용할 수있는 방법이 없습니다. 물론 크롤러를 시작하고 호출하는 함수를 가져올 수 있지만 그 다음은 무엇입니까? 당신은 정상적인 scrappy 프로세스를 갖게 될 것이며, 이는 프로그램을 제어합니다.

아마도 가장 좋은 방법은 프로그램의 하위 프로세스로 scrappy를 실행하고 데이터베이스 또는 파일을 사용하여 scrappy와 통신하는 것입니다. 프로그램과 크롤러를 잘 구분하고 주 프로세스를 확실하게 제어 할 수 있습니다.

출처

2010-07-22 17:41:25

예, 최소한 흥미로운 정보를 파일에 쓸 수 있습니다. 그런 다음 기본 앱에서 파일을 확인하십시오. Scrapy는 '데이터 저장소'에 쓰는 독립 실행 형 응용 프로그램으로 설계되었습니다. –

여기를 참조하십시오 http://gist.github.com/484009 – Rolando

전체적으로 웹 사이트를 크롤링하기 위해 Scrapy를 기반으로 한 Python 함수

답변

관련 문제