Google을 사용하여 주변을 검색했지만이 질문에 대한 답변을 찾을 수 없습니다. robots.txt 파일에 다음 행이 포함될 수 있습니다 Sitemap: http://www.mysite.com/sitemapindex.xml
을하지만 robots.txt에 여러 사이트 맵 색인 파일을 지정하고 검색 엔진이 인식해야하고, 사이트 맵의 전체를 크롤링 할 수
I 다음 robots.txt에 User-agent: *
Disallow: /images/
Sitemap: http://www.example.com/sitemap.xml
다음과 같은 robotparser을했습니다 def init_robot_parser(URL):
robot_parser = robotparser.RobotFileParser()
어디에 robots.txt를 넣어야합니까? domainname/public_html/robots.txt
domainname.com/robots.txt
또는 나는 domainname.com/robots.txt에 파일을 배치,하지만 브라우저에서 입력 할 때 열거 아니에요. 파일이 파일 시스템에 간다 alt text http://shup.com/Shup/
Google의 검색 엔진 최적화를 위해 노력하고 있으며 최근에 "사이트 : www.joemajewski.com"쿼리를 수행 할 때 전혀 색인을 생성해서는 안됩니다. 비록 그것이 shouldn, 난 내 자신의 CMS를 만들어 http://www.joemajewski.com/wow/profile.php?id=3 , 이것은 단순히 내가 구글에 의해 색인이 발견
나는 문서 데이터베이스 주위를 돌고있는이 Drupal 웹 사이트를 가지고있다. 의도적으로 사이트를 검색하여 이러한 문서 만 찾을 수 있습니다. 그러나 Googlebot 및 기타 크롤러가 모든 결과를 색인화하기를 원하므로 모든 문서를 나열하는 페이지를 만든 다음 로봇이 페이지를 방문하여 모든 문서를 색인화하도록 지시하면 어떻게됩니까? 이 방법이 가능한가요 아
사용자가 프로필을 입력하고 특정 세부 정보를 암호로 보호 할 수있는 사이트가 있습니다. 검색 엔진이 프로필의 '보호되지 않은'부분을 크롤링하도록합니다 (사용자마다 다릅니다). 페이스 북에 사용자의 이름을 입력하면 Facebook 프로필이 검색 결과에 나타나게되는 것과 유사합니다. 봇이 비밀번호로 보호 된 섹션을 크롤링하지 않지만 항상 (항상 공개) 사용자
우리 사이트는 ASP.NET에서 개발되었습니다. 우리는 Google 및 다른 검색 엔진에서 Default.aspx 페이지를 차단하려고합니다. 어떻게 Default.aspx 페이지를 "닫아"액세스 할 수 없습니까? 또는 중복 된 콘텐츠를 만들지 않도록 문제를 해결할 다른 방법이 있습니다.
스크립트에 대한 링크가 포함 된 사이트의 평가 시스템을 구현했습니다. 그러나 사이트의 3/5 평가와 1 ~ 5 등급 평가의 대부분이 검색 엔진 크롤러 등이 통과하고 있다고 의심하기 시작했습니다. 사용되는 URL은 다음과 같이 : User-agent: *
Disallow: /rate
이가 부정확하거나 Googlebot이 다른 사람들이 단순히 우리의 ro