2017-03-25 7 views
0

3 개의 웹 사이트를 호스팅하는 데 사용되는 호스팅 계정이 있습니다. 3 개의 웹 사이트는 모두 서로 독립적입니다.googlebot이 동일한 호스팅 계정에서 다른 도메인의 색인을 생성하지 못하도록합니다.

호스팅 계정이 주 도메인에 연결되어 있습니다 .lets는 www.maindomain.com이라고하며이 웹 사이트의 파일은 호스팅의 루트에 있습니다.

다른 두 도메인 www.domainA.com과 www.domainB.com은 각각 domainA 및 domainB 하위 폴더에 연결됩니다.

도메인 A와 도메인 B가 동일한 호스팅에서 호스팅된다는 사실을 제외하고 해당 웹 사이트와 아무 관련이 없더라도 google은 maindomain.com의 검색 결과에서 www.maindomain.com/domainA 및 www.maindomain.com/domainB를 보여줍니다. 계정.

maindomain.com을 크롤링 할 때 googlebot이 domainA 및 domainB 하위 폴더를 인덱싱하지 못하게하려면 어떻게해야합니까? robots.txt를 사용하여 하위 폴더 크롤링을 방지 할 수 있습니까 (google이 www.domainA 및 www.domainB를 별도의 엔티티로 인덱싱하지 못하게 할 수 있습니까?)

답변

1

domainA 및 domainB가 해당 하위 폴더를 문서 루트로 사용한다고 가정합니다. 만 Google 검색을 제외하려면

User-agent: * 
Disallow: /domainA/ 
Disallow: /domainB/ 

로 주요 도메인에 robots.txt을 정의하고 허용 할 수 있습니다 다른 모든

User-agent: googlebot 
Disallow: /domainA/ 
Disallow: /domainB/ 

그러나 도메인이 http://domaina.com/some/path과 같은 전체 URL로 연결되어 있지 않고 오히려 /domainA/some/path과 연결되어있는 것으로 보입니다.

처음으로 href을 정규화 된 URL로 대체하여 크롤링을 방지 할 수 있습니다.