robots.txt

    1

    2답변

    처음에는 프랑스어와 영어 등 여러 언어로 제공되는 다가오는 웹 응용 프로그램의 가시성을 극대화하는 방법을 이해해야한다고 들었습니다. Google 로봇과 같은 로봇이 여러 언어로 제공되는 사이트를 긁어 모으는 방식을 이해하는 데 관심이 있습니다. 이 웹 사이트의 URL에서 언어를 지정해야합니다 : 나는 로봇 및 인덱싱 엔진의 동작에 관한 몇 가지 질문이 있습

    1

    1답변

    특수 폴더 및 파일을 제외하고 내 사이트의 모든 파일과 폴더에 SE 봇이 표시되지 않도록하고 싶습니다. robots.txt 파일에서이 줄을 사용할 수 있습니까? User-agent: * Disallow:/ Allow: /thatfolder 맞습니까?

    2

    2답변

    내 페이지 /admin/login.asp가 "inurl : admin/login.asp"검색어와 함께 Google에 있으면 어떻게 표시 될 수 있습니까? "site : www.domain.xx"쿼리? 내 robots.txt에 코드의 라인을했습니다 : User-agent: * Disallow: /admin/ 그리고이 페이지의 HTML 코드 : <meta

    1

    1답변

    wget과 같은 내용으로 모든 콘텐츠를 다운로드하지 않고 모든 도메인의 URL을 (동일한 도메인에) 보내고 싶습니다. wget이 다운로드 할 링크를 나열하도록 지시하는 방법이 있습니까? 누군가가 더 나은 해결책을 내놓을 수있는 경우이를 위해 내가 사용하고있는 것에 대한 약간의 배경 지식 : p [4-9]로 끝나는 모든 파일을 제외하는 robots.txt 파

    4

    4답변

    robots.txt 구문 분석 응용 프로그램에서 작업. 필자는 웹 서버에서 파일을 가져 와서 출력을 텍스트 상자에 던진 메서드를 직접 작성했습니다. 나는 일반적으로 robots.txt를 보았을 때와 마찬가지로 파일에있는 모든 줄에 텍스트의 한 줄을 표시하도록 출력을 원합니다. 그러나 텍스트 상자의 출력은 모두 텍스트 줄이 아닙니다. 캐리지 리턴 또는 줄 바

    5

    1답변

    로봇의 모든 폴더 크롤링을 허용하지 않으려는 경우 URL의 어느 위치에서든 이름이 this-folder입니다. 예를 허용합니다 : http://mysite.com/this-folder/ http://mysite.com/houses/this-folder/ http://mysite.com/some-other/this-folder/ http://mysite

    7

    3답변

    java에서 robots.txt를 구문 분석하는 방법을 알고 싶습니다. 이미 코드가 있습니까?

    1

    2답변

    디렉토리 내의 특정 페이지를 크롤링하지 못하게하려는 경우가 있습니다. 이 디렉토리에는 많은 수의 파일이 있지만 색인을 생성해야하는 파일이 있습니다. 각 페이지를 개별적으로 허용하지 않으면 서 매우 큰 로봇 파일을 갖게됩니다. 특정 파일을 제외하고 robots.txt의 폴더를 허용하지 않는 방법이 있습니까?

    1

    1답변

    내가하려는 것은 URL 목록을 가져 와서 각 URL의 콘텐츠를 다운로드하는 것입니다 (색인 생성을 위해). 가장 큰 문제는 단순히 로그인 페이지로 리디렉션되는 페이스 북 이벤트와 같은 링크가 발생하면 해당 URL을 감지하고 건너 뛸 수 있어야한다는 것입니다. 이 목적을 위해 robots.txt 파일이있는 것 같습니다. 나는 heritrix를 들여다 보았다.

    0

    1답변

    에 오신 것을 환영합니다, 어떻게 내가 할 수없는 페이지 내가 Disallow: /something,*.php 그러나 말하려고이 http://mysite.net/something,category1.php http://mysite.net/something,category2.php (...) http://mysite.net/something,categ