직접 URL을 알고있는 경우 공개적으로 평가할 수있는 파일을 웹에 배치한다고 가정 해 보겠습니다. 파일을 가리키는 링크가 없으며 서버에서도 디렉토리 목록이 비활성화되었습니다. 공개적으로 액세스 할 수있는 동안이 파일의 정확한 URL을 입력하는 것 외에는 페이지에 연결할 수있는 방법이 없습니다. 어떤 종류의 웹 크롤러 (좋거나 악의적 인)가 파일을 크롤링 한 다음 색인을 생성하여이 파일을 찾을 수있는 기회는 무엇입니까?웹 크롤링 및 제한점
공개적으로 액세스 할 수 있더라도 행운을 필요로하거나 파일을 찾는 구체적인 지식이 필요합니다. 뒤뜰 옆에 금을 묻어두고 누군가가지도없이 그것을 발견하거나 무언가를 아는 것이 그곳에 묻혀있는 것과 같습니다.
나는 그것이 발견 될 다른 방법을 볼 수 없지만 그 이유는 내가 stackoverflow 커뮤니티를 요청 해요.
감사합니다.
가 robots.txt를 달리 지금까지 그것을 발견하지 않았을 크롤러, 심하게-행동 할 수있는 URL을 표시하지 않을까요? – MarkJ
예, 그렇기 때문에 "중요하지 않은 경우"라고 말한 것입니다. 불량 크롤러는 (일반적으로) 공개 검색 엔진을 제공하지 않으므로 검색 엔진 인덱싱이 주요 관심사 인 경우 robots.txt가 허용되는 접근 방식입니다. – ceejayoz
링크를 게시하는 데는 하나의 불량 크롤러 만 필요하며 "양호한"크롤러는이를 수확 할 수 있습니다! – Arafangion