나는 최근에 매우 효율적이라고 생각하는 Scrapy을 발견했습니다. 그러나, 나는 파이썬으로 작성된 더 큰 프로젝트에 그것을 어떻게 포함시키는지를 정말로 보지 못했습니다. 나는 정상적인 방법으로 거미를 만들 수 있지만, 기능이 주어진 URL에 그것을 실행할 수 있도록하고 싶습니다 주어진 도메인에 크롤링 프로세스를 시작하고 모든 페이지가 된 경우에만 중지 할 전체적으로 웹 사이트를 크롤링하기 위해 Scrapy를 기반으로 한 Python 함수
start_crawl(url)
본.
예, 최소한 흥미로운 정보를 파일에 쓸 수 있습니다. 그런 다음 기본 앱에서 파일을 확인하십시오. Scrapy는 '데이터 저장소'에 쓰는 독립 실행 형 응용 프로그램으로 설계되었습니다. –
여기를 참조하십시오 http://gist.github.com/484009 – Rolando