robots.txt

    0

    1답변

    Google 웹 로그 분석은 일부 봇 트래픽 (예 : Googlebot 및 Bing의 봇)을 자동으로 걸러냅니다. 그러나 자바 스크립트를 실행하는 일부 스마트 봇은 GA 보고서의 일반 사용자처럼 표시됩니다. 그들을 필터링하는 가장 좋은 방법은 무엇입니까?

    13

    2답변

    크롤러가 내 도메인의 루트 디렉토리 (예 : index.html 파일)에 액세스 할 수있게하고 싶지만 더 깊은 것은 없습니다 (즉, 하위 디렉토리 없음). robots.txt 파일에서 모든 하위 디렉토리를 개별적으로 나열하고 거부하지 않아도됩니다. 현재 다음과 같은 사항이 있지만 도메인의 루트에있는 내용을 포함하여 모든 것을 차단하고 있다고 생각합니다. U

    3

    2답변

    그래서 Apache와 함께 OpenSuse를 실행하는 개발 서버가 있습니다. 이 서버에는 많은 프로젝트가 있으며, 그 중 일부는 온라인/라이브 기능이 있습니다. 각 프로젝트에는 별도의 하위 도메인이 있습니다. robots.txt에 대한 모든 요청을 "기본"- 파일, 서버 와이드로 재 작성하려면 어떻게합니까? 내 목표는 검색 봇에서 색인 생성을 방지하는 것입

    2

    1답변

    웹 크롤링을 읽었을 때 고려해야 할 사항이 많았지 만 아직 어떤 논의도 찾지 못했다는 우려가 있습니다. 주어진 사이트에 대해 robots.txt를 얼마나 자주 가져와야합니까? 특정 사이트의 경우 하루 100 페이지로 매우 느린 크롤링이 발생합니다. 웹 사이트에서 다른 페이지가 링크되는 새로운 섹션 (/ 인간 전용 /)을 추가합니다. 동시에 robots.tx

    1

    4답변

    웹 응용 프로그램 용 Python과 django 프레임 워크를 사용하고 있습니다. robots.txt 파일을 제공하기 위해 urls.py 항목을 만들었지 만 어떤 이유로 그것이 서비스를 제공 할 수없는 것처럼 보입니다. url(r'^robots.txt$', 'support.views.robot_file',name="robot_file"), 이 방법은 매

    5

    1답변

    잠시 후 사이트를 크롤링하는 앱을 만들고 있습니다. 크롤링되는 사이트의 robots.txt을 준수/존중하고 싶습니다. 어떻게해야합니까? 어떤 방법으로 이것을 할 수 있습니까? 미리 감사드립니다.

    7

    1답변

    간단한 질문입니다.이 Disallow */*details-print/ 기본적으로,이 예에서는 /foo/bar/dynamic-details-print --- foo는 바 형태의 규칙을 차단하는 것도 완전히 동적 일 수 : 내가 추가 할. 또한 대체 (globbing)와 정규 표현식은 사용자 에이전트 또는 선 금지 중 하나에서 지원되지 않습니다 참고 : 내

    9

    4답변

    의 robots.txt 주 도메인 아래 폴더에있는 프로젝트가 있는데 도메인 자체의 루트에 대한 액세스 권한이 없습니다. http://mydomain.com/myproject/ 나는 http://mydomain.com/myproject/forbidden/ 내가 단순히 myproject라는 폴더에 robots.txt를 넣을 수있는 "금지"하위 폴더에 색

    0

    2답변

    현재 나는 IIS의 단일 호스트에서 다른 CSS와 구현을 사용하여 asp classic과 vbscript로 개발 된 웹 사이트 풀을 가지고 있습니다. sitemap.xml은 서로 다릅니다. http://www.mysite1.com/sitemap-mysite1.xml http://www.mysite2.com/sitemap-mysite2.xml http://w

    3

    1답변

    IIS 7에서 http 연결에 사용되는 것보다 https 요청에 대해 다른 robots.txt를 사용하려면 어떻게해야합니까? 감사합니다.