방금 웹 크롤러를 생성/사용자 정의하는 것에 대해 생각하기 시작했으며 웹 크롤러/로봇 에티켓에 대해 거의 알지 못합니다. 내가 발견 한 에티켓에 관한 대부분의 글은 오래되고 어색한 것처럼 보이기 때문에 웹 개발자 커뮤니티에서 현재 (실제적인) 통찰력을 얻고 싶습니다.웹 크롤러를 만들 때 고려해야 할 주요 고려 사항은 무엇입니까?
사이트 XYZ의 마크 업은 조건 ABC를 충족합니까? "간단한"목적을 위해 "웹"을 걷기 위해 크롤러를 사용하고 싶습니다.
이 나를 위해 많은 질문을 제기,하지만 난 내가 먼저 비켜하는 데 필요한 두 가지 질문이 생각하는 다음 가서 얻을에서
- 그것은 조금 "불확실"느낌 - 이런 종류의 일이 용납 될까요?
- 사람들을 화나게하지 않기 위해 크롤러가 취해야 할 구체적인 고려 사항은 무엇입니까?
사용자 에이전트에 연락처 정보를 넣는 것은 사이트 관리자에게 스파이더를 소개하고 연락처 정보를 입력하여 친숙하고 위의 사람임을 분명하게 알 수있는 좋은 방법입니다. 사이트에 광고를 게재하는 데 문제가있는 경우 피드 또는 API를 얻을 수있는 경우 해당 피드와 협력 할 수있는 기회가있을 수 있습니다. 해당 정보를 난독 화하거나 제공하지 못하면 즉시 도끼로 이동하여 도메인을 금지하여 액세스를 차단합니다. –