0
나는 치료에 익숙하지 않으며 문서화 및 시행 착오를 통해 많은 시간을 보 내기 전에 내가 찾고있는 것이 가능한지 전문가에게 물어볼 것이라고 생각했습니다.여러 단계의 크롤링
- 탐색 응용 프로그램 URL 사이트의 모든 링크에서
- 에 링크의 하위 집합을 필터링 할 수 있습니다.
- 방문이 링크 각 링크 3.1, 긁어 추출하고 내가 3.3 긁어뿐만 아니라이 링크 및 기록에 대한 응답을 따를 것인지이 응답의 특정 링크가 몇 가지 정보 3.2를 저장 각.
이 모든 것을 한 스파이더에서 수행 할 수 있습니까? 아니면 2 단계의 링크를 필터링하고 3 단계의 두 번째 거미를 호출해야합니까?
나는 "문서를보고있는 초인적 인 시간"이 필요하다고 생각하지 않습니다. 링크를 추적하는 데 사용되는 ['CrawlSpider'] (http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider)로 시작하여 필터링 할 수도 있습니다. docs의 예제는 또한 콜백의 데이터를 추출합니다. 이것은 공부하기 좋은 시작입니다. (우리는 당신을 위해 공부할 수 없습니다) –
고맙습니다. 문서를 검토하고 크롤링 스파이더를 통해이를 수행 할 수있었습니다. 이제 내 다음 단계는 scraping을 사용하여 웹 사이트에 로그인하는 것입니다. amazon.com에 로그인하려고합니다. Robots.txt는 www.amazon.com/ap/signin이 허용되지 않는다고 언급합니다. 내가해야하는 것처럼 robots.txt 요청을 존중하도록 치료를 설정했습니다. 인증 된 세션을 달성하기위한 대안이 있습니까? –