2009-11-14 7 views
13

웹 서버의 일부 파일에 대한 정확한 다운로드 수를 얻으려고합니다. 나는 사용자 에이전트를보고 일부는 분명히 봇이나 웹 크롤러이지만, 많은 사람들에게 많은 정보가 있습니다. 확실하지 않습니다. 웹 크롤러 일 수도 있고 아닐 수도 있습니다. 그리고 많은 다운로드를 유발하므로 알려줘야합니다.알려진 웹 크롤러 목록이 있습니까?

사용자 에이전트, IP, 동작 등과 같은 일부 문서가있는 알려진 웹 크롤러 목록이 있습니까?

나는 구글, 야후 또는 마이크로 소프트와 같은 공식적인 것에 관심이 없다. 그것들은 일반적으로 잘 행동하고 자기 식별됩니다.

답변

4

불행히도 우리는 봇 활동이 너무 많아서 정확하게 필터링 할 수 없다는 사실을 발견했습니다. 정확한 다운로드 횟수를 원하면 가장 좋은 방법은 자바 스크립트로 다운로드를 요구하는 것입니다. 이것이 기본적으로 봇을 걸러내는 유일한 방법입니다. 요즘 모든 사이트 트래픽 분석 엔진이 자바 스크립트 기반이기도합니다.

+0

우리의 경우 문제는 iTunes 나 다른 포드 캐처와 같이 JavaScript를 실행하지 않는 유효한 다운로더가 많다는 것입니다. – Pablo

+0

불행히도 당신은 정말 정확한 다운로드 횟수만큼 운이 좋지 않습니다. 내가 추천 할 수있는 최선의 대안은 전체 다운로드 (필터링 없음), 봇 제외 필터 (블랙리스트 필터링) 및 알려진 양호한 (화이트리스트 필터링) 필터를 포함합니다. 적어도 추세와 거친 볼 파크 견적을 볼만한 것을 줄 것입니다. – jwanagel