2014-09-10 2 views
3

내 robots.txt 파일의 콘텐츠를 내 robots.txt를 무시 : 당신이 볼 수 있듯이구글은 여기에

User-agent: * 
Disallow: /images/ 
Disallow: /upload/ 
Disallow: /admin/ 

, 내가 명시 적으로 폴더 images, uploadadmin 인덱스에 모든 로봇을 허용. 문제는 내 클라이언트 중 하나가 images 폴더의 .pdf 문서가 Google 검색 결과에 표시 되었기 때문에 이미지 폴더에서 콘텐츠 제거 요청을 보냈습니다. 아무도 내가 왜 여기서 잘못하고 있는지 설명 할 수 있고 Google에서 내 폴더를 색인 생성 한 이유는 무엇입니까?

Thx! 나는 robots.txt를 사용하여 페이지를 크롤링 지시 구글을 허용하지 차단하면

+2

이것은 프로그래밍과 관련이 없으므로 http://webmasters.stackexchange.com/에서 더 잘 질문 할 것입니다. – Sugar

+0

robot.txt를 적용하더라도 Google은 폴더를 검색합니다. 비밀번호로 디렉토리를 제한해야합니다. 파일을 나열하지 않으려면 모든 디렉토리에 index.html 파일을 넣는 것이 좋습니다. – sugunan

+1

질문 [웹 마스터에서 다시 게시] (http://webmasters.stackexchange.com/q/68958/17633). – unor

답변

7

이 검색 결과에서 사라지, Google Webmaster Docs

을 인용?

Google이 페이지를 크롤링하지 못하도록 차단하면 해당 페이지의 순위가 낮아 지거나 시간이 지남에 따라 전체 순위가 떨어질 수 있습니다. 검색 결과 아래의 텍스트에서 사용자에게 제공되는 세부 정보의 양을 줄일 수도 있습니다. 페이지의 내용이 없으면 검색 엔진 은 작업 할 정보가 훨씬 적기 때문입니다.

-

그러나 robots.txt를 허용하지 않음이 페이지가 결과에 표시되지 을 보장하지 않습니다 : Google은 여전히 ​​들어오는 링크로 외부 정보에 근거하여 결정할 수있다, 그것은 관련성이있다. 에서 페이지의 색인 생성을 명시 적으로 차단하려면 noindex 로봇 메타 태그 또는 X-Robots-Tag HTTP 헤더 대신 을 사용해야합니다. 이 경우 태그를 볼 수 있고 준수하려면 페이지를 크롤링해야하므로 robots.txt에서 페이지를 허용해서는 안됩니다.

폴더의 모든 파일에 대해 noindex로 X-Robots-Tag 헤더를 설정하십시오. 이 헤더를 폴더의 웹 서버 구성에서 설정하십시오. PDF 파일에 대한 아파치 구성에서 https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de

  1. 설정 헤더 :

    <Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>

  2. 안 디렉토리 index'ing /이 폴더의 목록.

  3. "noindex"로봇 메타 태그가있는 빈 index.html을 추가하십시오.

    <meta name="robots" content="noindex, nofollow" /> <meta name="googlebot" content="noindex" />

  4. 수동으로 웹 마스터 도구를 사용하여 인덱스 페이지의 제거를 강제로.


주석의 질문 : 폴더에있는 모든 파일을 금지하는?

// 1) Deny folder access completely 
<Directory /var/www/denied_directory> 
    Order allow,deny 
</Directory> 

// 2) inside the folder, place a .htaccess, denying access to all, except to index.html 
Order allow,deny 
Deny from all 
<FilesMatch index\.html> 
     Allow from all 
</FilesMatch> 

// 3) allow directory, but disallow specifc environment match 
BrowserMatch "GoogleBot" go_away_badbot 
BrowserMatch ^BadRobot/0.9 go_away_badbot 

<Directory /deny_access_for_badbot> 
order allow,deny 
allow from all 
deny from env=go_away_badbot 
</Directory> 

// 4) or redirect bots to main page, sending http status 301 
BrowserMatch Googlebot badbot=1 
RewriteEngine on 
RewriteCond %{ENV:badbot} =1 
RewriteRule ^/$ /main/ [R=301,L] 
+0

귀하의 의견은 정말로 도움이됩니다. 고마워! – MrD

+0

.pdfs뿐만 아니라 모든 파일을 금지하는 방법? – MrD

+0

답변에 두 가지 예를 추가했습니다. 기본적으로 아파치 설정 파일을 통한 디렉토리 액세스를 거부합니다. 좋은 방법은 폴더를 차단 (모두 거부) 한 다음 예외를 추가하여 표시 할 파일 (허용 모두)을 허용하는 것입니다. –