나는이 특정 사이트사이트 맵과 그 디렉토리를 읽는 방법은 무엇입니까?
에 대한 웹 크롤러를 구축하고 후 robots.txt
User-agent: *
Disallow: /site=
Disallow: /5480.iac.
Disallow: /go/
Disallow: /audio.html/
Disallow: /houseads/
Disallow: /askhome/
Disallow: /cite.html
Disallow: /23219321/iac.
Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml
을 확인하고 사이트 맵 링크에서 나는 다운로드 할 수 있었고 있어요 읽어. 그래서 내 질문은 어떻게 사이트 맵을 읽고 그것을 허용하지 않은 디렉토리를 찾느냐입니다.
죄송합니다. 내 질문이 너무 막연하지만 어떻게 작동하는지 이해할 수 없으며이 주제에 익숙하지 않습니다.
사이트 맵의 목적은 검색 엔진이 웹 사이트의 색인을 생성하도록 돕는 것입니다. robots.txt 파일에서 허용되지 않는 URL을 포함해서는 안됩니다. –
@DanNagle 그래서 내 웹 크롤러로 '웹 크롤링'할 수 있습니까? –