2017-01-20 4 views
-1

페이지의 표준 URL을 크롤러로 처리하는 방법은 무엇입니까? 예를 들어크롤러에서 표준 URL을 처리하는 방법

나는 머리 태그이있는 경우 :

<link rel="canonical" href="http://example.com/wordpress/"> 

나는 URL을 기반으로 모든 URL을 건너 뛰고을 생략해야 하는가? 감사.

답변

0

정식 태그는 문서를 검색 엔진에 색인화하여 태그에 대해 동일한 값을 공유하는 중복 또는 유사어의 수를 줄이는 데 유용합니다. 이것은 예를 들어 StormCrawler을 사용하는 방법입니다.

canonical 값이 다른 색인 생성 URL은 건너 뛸 수 있지만 콘텐츠를 가져온 후 발견 한 내용이므로 정식 값을 id로 사용하여 색인을 생성하면 큰 차이는 없습니다.

태그 for filtering outlinks을 활용하기 위해 StormCrawler에 공개 문제가 있습니다. 이렇게하는 것의 이점은 정식 태그에서 유추 된 규칙을 기반으로 재 작성 될 수있는 URL은 전혀 => 더 효율적인 크롤링에서 가져올 수 없다는 것입니다.