2017-02-18 7 views
1

나는이 특정 사이트사이트 맵과 그 디렉토리를 읽는 방법은 무엇입니까?

http://www.dictionary.com

에 대한 웹 크롤러를 구축하고 후 robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml 

을 확인하고 사이트 맵 링크에서 나는 다운로드 할 수 있었고 있어요 읽어. 그래서 내 질문은 어떻게 사이트 맵을 읽고 그것을 허용하지 않은 디렉토리를 찾느냐입니다.

죄송합니다. 내 질문이 너무 막연하지만 어떻게 작동하는지 이해할 수 없으며이 주제에 익숙하지 않습니다.

+0

사이트 맵의 목적은 검색 엔진이 웹 사이트의 색인을 생성하도록 돕는 것입니다. robots.txt 파일에서 허용되지 않는 URL을 포함해서는 안됩니다. –

+0

@DanNagle 그래서 내 웹 크롤러로 '웹 크롤링'할 수 있습니까? –

답변

0

당신은 누구의 경로 /site=, /5480.iac., ..., /cite.html, 또는 /23219321/iac.로 시작하는 URL을 크롤링하지 않을 수 있습니다. 예를 들어

,

당신은 다음과 같은 URL을 크롤링하는 허용되지 않습니다

http://www.dictionary.com/go 
http://www.dictionary.com/go.html 
http://www.dictionary.com/foo/go/ 

경우] :

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar 

당신이 다음과 같은 URL을 크롤링을 사용할 수 있습니다 Sitemap에 robots.txt에 따라 크롤링 할 수없는 URL이 포함되어 있지만 여전히 허용되지 않습니다. d 그들을 크롤링 할 수 있습니다.
사이트 맵에서 크롤링하면 안되는 URL을 포함하는 것이 직관적이지 않을 수 있지만 사이트 맵이 크롤러가 아닌 다른 에이전트에 의해 사용되거나 일부 특정 봇만 크롤링 할 수 없기 때문에 의미가 있습니다. .