2016-12-20 4 views
0

ElasticSearch의 상태 색인에 _redirTo 태그가 있습니다. 다음과 같이 리디렉션과 관련하여 몇 가지 질문이 있습니다.StormCrawler에서 리디렉션에 제한이 있습니까?

  1. 리디렉션의 제한 사항은 무엇입니까? 그래서 그것은 의 루프에서 끝나면 안된다?
  2. 특정 가져온 URL을 몇 번 리디렉션합니까? 나는 _redirTo 태그에 하나의 리디렉션 만 볼 수 있습니다. URL 리디렉션이 2 ~ 3 번 발생하는 경우 리디렉션 수를 계산할 수 없습니까?

답변

1

시드에서 깊이 제한을 설정할 수 있습니다. MaxDepth URL filter을 참조하십시오. 그러나 연속적인 리디렉션 수가 직접적으로는 아닙니다.

주목하신대로 지정된 문서가 리디렉션되는 URL 만 추적합니다.

시드와의 거리에 관계없이 redirs 수를 제어하려면 MetadataTransfer을 확장 또는 수정하거나 프로토콜 구현 내에서 redirs를 처리하는 것이 좋습니다. 단점은 대상이 대상인지 여부를 확인하지 않는 것입니다 URL은 이미 가져 왔습니다.

업데이트 'redirections.allowed'라는 config 요소가 있으며 기본값은 true입니다. SimpleFetcherBolt에 대한 수정이 제대로 처리되지 않았으므로 방금이 문제를 해결했습니다.

+0

StormCrawler가 리디렉션 된 URL을 따르지 않는다는 것을 실험에서 발견 한 것은 리디렉션 된 URL에서 더 이상 크롤링하지 않는다는 것을 의미합니다. 나 맞아 ? 또는 내가 사실로 만들 필요가있는 어떤 깃발이라도? 그래서 그것은 리디렉션 된 URL에서 크롤링합니까? – superB

+0

올바르지 않습니다. URL 필터 중 하나가이를 방지하지 않는 한 SC는 리디렉션을 따라야합니다. 깊이 또는 기타. GH에 관한 문제를 재발행 가능한 사례와 함께 열어주십시오. 그것이 사실이 아니라고 생각되면 최대한 빨리 살펴 보겠습니다. 감사! –

+0

어쩌면 모든 URL 필터를 제거하여 redir 문제가 해결되는지 확인하십시오. –