여러 단계의 크롤링

나는 치료에 익숙하지 않으며 문서화 및 시행 착오를 통해 많은 시간을 보 내기 전에 내가 찾고있는 것이 가능한지 전문가에게 물어볼 것이라고 생각했습니다.여러 단계의 크롤링

탐색 응용 프로그램 URL 사이트의 모든 링크에서
에 링크의 하위 집합을 필터링 할 수 있습니다.
방문이 링크 각 링크 3.1, 긁어 추출하고 내가 3.3 긁어뿐만 아니라이 링크 및 기록에 대한 응답을 따를 것인지이 응답의 특정 링크가 몇 가지 정보 3.2를 저장 각.

이 모든 것을 한 스파이더에서 수행 할 수 있습니까? 아니면 2 단계의 링크를 필터링하고 3 단계의 두 번째 거미를 호출해야합니까?

2016-07-22 Anand Rao

나는 "문서를보고있는 초인적 인 시간"이 필요하다고 생각하지 않습니다. 링크를 추적하는 데 사용되는 ['CrawlSpider'] (http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider)로 시작하여 필터링 할 수도 있습니다. docs의 예제는 또한 콜백의 데이터를 추출합니다. 이것은 공부하기 좋은 시작입니다. (우리는 당신을 위해 공부할 수 없습니다) –

고맙습니다. 문서를 검토하고 크롤링 스파이더를 통해이를 수행 할 수있었습니다. 이제 내 다음 단계는 scraping을 사용하여 웹 사이트에 로그인하는 것입니다. amazon.com에 로그인하려고합니다. Robots.txt는 www.amazon.com/ap/signin이 허용되지 않는다고 언급합니다. 내가해야하는 것처럼 robots.txt 요청을 존중하도록 치료를 설정했습니다. 인증 된 세션을 달성하기위한 대안이 있습니까? –

업데이트 : 따라서 치료를 사용하면 분명히 가능합니다. 적어도 멀티 레벨 크롤링은 있습니다. 나는 한 곳에서 정보를 얻을 수 있도록 여러 수준의 항목을 저장하고 연결할 수 있는지 충분히 알지 못했습니다. 하지만 지금까지 보았던 치료법의 유연성으로 판단하면 이것이 가능할 수도 있습니다.

출처

2016-07-23 09:02:08

답변

관련 문제