을 허용하는 방법 내가 /? Q =모든 동적 URL의 robots.txt에있는 모든 동적 URL을 허용하는 방법 robots.txt에
답변
귀하의 질문에 대한 답변은
Disallow: /?q=
내가 찾을 수의 robots.txt에 가장 좋은 (현재 접근) 소스가 Wikipedia에 사용하는 것입니다. (아마도 가장 확실한 출처는 http://www.robotstxt.org이지만 현재 사이트가 다운되었습니다.)
위키피디아 페이지에 따르면이 표준은 단지 두 개의 필드를 정의합니다. UserAgent : 및 Disallow :. Disallow : 필드는 명시 적 와일드 카드를 허용하지 않지만 각 "허용되지 않는"경로는 실제로 경로 접두사입니다. 즉 지정된 값으로 시작하는 경로를 찾습니다.
허용 : 필드는 비표준 확장이며 Disallow에서 명시 적 와일드 카드를 지원하면 비표준 확장이됩니다. 이들을 사용하면 (합법적 인) 웹 크롤러가이를 이해할 것으로 기대할 수 없습니다.
이것은 크롤러가 "스마트"또는 "멍청한"문제가 아니라 표준 준수 및 상호 운용성에 관한 것입니다. 예를 들어 "Disallow :"에서 명시적인 와일드 카드 문자로 "똑똑한"작업을 수행 한 웹 크롤러는 가상의 문자 그대로 해석되는 robots.txt 파일에는 좋지 않습니다.
바울이 말한 바와 같이로 시작하는 모든 일을 허용하지 않으려
Disallow: /?q=admin/
Disallow: /?q=aggregator/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
많은 robots.txt 인터프리터가 너무 밝아서 사용하지 않으려는 경로의 와일드 카드를 해석하지 못할 수 있습니다.
즉, 일부 크롤러는 다양한 URL이있는 링크의 무한 루프에 걸릴 수도 있으므로 걱정하지 않아도 동적 페이지를 건너 뛸 수 있습니다. 나는 당신이이 동적 경로에 접근하기 위해 열심히 노력하고있는 용감한 크롤러에 직면했기 때문에이 질문을하고 있다고 가정하고 있습니다.
특정 크롤러에 문제가있는 경우 robots.txt 용량을 검색하고 특정 robots.txt 섹션을 지정하여 크롤러가 어떻게 작동하는지 구체적으로 조사 할 수 있습니다.
일반적으로 동적 페이지에 대한 액세스를 허용하지 않으려면 robots.txt 디자인을 다시 생각해보십시오.
종종 동적 매개 변수 처리 "페이지"는 특정 디렉토리 또는 특정 디렉토리 세트 아래에 있습니다. 이것이 단순히 Disallow :/cgi-bin 또는/app라고 쓰고 그걸로 끝내는 것이 일반적으로 매우 간단합니다.
귀하의 경우 매개 변수를 처리하는 영역에 루트를 매핑 한 것 같습니다. 당신의 허용 목록이 구체적으로 무엇을 크롤러해야 인덱스를 추가하여 허용 안 목록을 우선합니다
User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow:/
이 방법 : 당신의 robots.txt의 논리를 반전 뭔가 같은 말을 할 수 있습니다. 모든 크롤러가 동일하게 만들어지는 것은 아니므로 나중에 robots.txt를 수정하여 오작동하는 크롤러에 대한 특정 섹션을 추가 할 수 있습니다.
@Grookoo : "허용 :"은 비표준입니다.그것을 무시하는 크롤러는 오산하지 않습니다. 그것은 단순히 robots.txt 명세를 따르고 있습니다. –
[this] (http://smackdown.blogsblogsblogs.com/2008/05/23/googlebot-creates-pages-instead-of-simply-indexing-them-new-form-crawling-algo-goes -bad /)를 사용하면 검색 페이지를 허용하지 않는 것이 좋습니다. 따라서이 질문은 매우 관련성이 있으므로 닫아서는 안됩니다. –