2

은 크롤링 오류/기타에서 우리는 다음과 같이 URL에 대한 400 오류가 표시 :Googlebot이 언더 코어 클라이언트 측 템플릿을 크롤링하지 못하게하려면 어떻게해야합니까? Google 웹 마스터 도구에서

/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%> 

enter image description here

이 실제 URL, 또는 우리가 의도 된 URL이 아닙니다 크롤링됩니다.

<script type="text/template" class="template" id="template-trees-list"> 
    <% _.each(trees, function(tree) { %> 
    <a href="/family-tree/<%=tree.user_url_slug%>/<%=tree.url_slug%>" rel="nofollow"> 
     <%= tree.title %> 
    </a> 
    <% }); %> 
</script> 
  1. 왜 구글이 script 블록의 내부에 크롤 링 : 그것은 밑줄/백본 템플릿입니까?
  2. Google에서 rel="nofollow" 속성을 무시하는 이유는 무엇입니까?
  3. Googlebot을 우리의 Underscore 템플릿에서 멀리하기 위해 할 수있는 다른 방법이 있습니까?

업데이트 : 좋은 페이지를 유지하고 불량 페이지를 차단하는 올바른 패턴을 찾을 수 있다면 robots.txt를 사용할 수 있습니다. 예를 들어 /surnames/Jones/queries을 유지하면서 /surnames/Jones/queries/<%=url_slug%>을 차단하고 싶습니다. 나는 이런 수천을 가지고있다. Googlebot may support basic patterns처럼 보이지만 완전 정규식은 아닙니다.

업데이트 2 : 음,이 근본 원인으로하지 않으며, 장기적인 솔루션으로 조금 부서지기 쉬운 것 같다,하지만 난 다음 robots.txt 패턴이 작동합니다 GWT에서 테스트 :

User-agent: Googlebot 
Disallow: /*url_slug%%3E$ 
Disallow: /*url_slug%%3E/$ 

답변

1

robots.txt를 통해이를 차단하면 괜찮을 것입니다.

+1

OP가 원하는 robots.txt가 포함 된 페이지의 * 부분 *을 차단할 수 있다고 생각하지 않습니다. – idbehold

+0

robots.txt 관련 질문이 업데이트되었습니다. 아마도 옵션 일 수 있습니다. – richardkmiller