사용자가 프로필을 입력하고 특정 세부 정보를 암호로 보호 할 수있는 사이트가 있습니다. 검색 엔진이 프로필의 '보호되지 않은'부분을 크롤링하도록합니다 (사용자마다 다릅니다). 페이스 북에 사용자의 이름을 입력하면 Facebook 프로필이 검색 결과에 나타나게되는 것과 유사합니다. 봇이 비밀번호로 보호 된 섹션을 크롤링하지 않지만 항상 (항상 공개) 사용자
레지스트리의 일종 인 응용 프로그램을 구축하고 있습니다. 사전에 대해 생각해보십시오 : 단어를 찾아보고 단어가 있으면 뭔가를 반환합니다. 이제이 레지스트리는 회사에 대한 중요한 정보를 저장하고 일부는 전체 목록을 얻으려는 유혹을받을 수 있습니다. 내 응용 프로그램은 WS에 응답하는 EJB 3.0을 사용합니다. 그래서 하루에 IP 주소 당 최대 10 개의 쿼
나는 우리 사이에 능동적 인 (또는 편집증적인) 질문을하고 싶다. 무엇을 찾고 있는가? 로그를 수동으로 검사하는 것이 아니라 프로그래밍 방식으로 볼 수있는 것에 대해 주로 생각하고 있습니다. 예를 들어 : 수동/자동 해킹 시도. 데이터 스키밍. 봇 등록 (captcha 등을 피했습니다.) 기타 원하지 않는 동작입니다. 대부분의 사람들이 실용적이고 효과적이라
이것은 웹 앱을 작성하는 일반적인 질문입니다. 기사의 페이지 뷰뿐 아니라 내 클라이언트 용으로 설치 한 URL 단축 스크립트를 계산하는 응용 프로그램이 있습니다. 문제는 봇이 사이트를 공격 할 때마다 페이지 뷰를 부 풀리는 경향이 있다는 것입니다. 누구나 이러한 응용 프로그램의보기 개수에서 봇보기를 제거하는 방법에 대한 아이디어가 있습니까?
Google 토크 서버에 연결하는 PHP에서 간단한 xmpp 봇을 만들었습니다. 기본적으로 cli_longrun 예제를 수정했습니다. 브라우저에서 스크립트를 실행하면 스크립트가 실행중인 탭을 닫은 후에도 봇이 온라인 상태가되고 잠시 동안 온라인 상태로 유지됩니다 (스트림의 이벤트를 수신하는 무한 루프). 그러나 얼마 후 봇은 오프라인이됩니다. 질문은 봇을
IIS 6 Windows 2003에서 호스팅되는 비즈니스 목록 디렉토리가 있습니다. 우리의 경쟁 업체는 우리의 콘텐츠와 고객을 크롤 링하고 도용합니다. Google은 허니팟 URL을 사용하여 IP 차단 및 로그 파싱을 많이 시도하지 않고 시도했습니다. 누구든지이 문제를 최소화하기 위해 웹 서버 앞에서 실행할 수있는 네트워크 장치 또는 프록시 서버를 알고 있
Google 웹 로그 분석 (또는 다른 어떤 서비스도)이 사용자 정의 할 때 제공 할 수있는 특수 기능으로 내 방문자 추적을하고 있습니다. 내 스크립트의 끝 부분에서이 기능을 호출했지만 클라이언트의 봇 (Google이라고 가정)에서 수천 개의 페이지가 실행되면서 빠르게 실행되었습니다. 내 테이블에는 약 1,000,000 개의 쓸모없고기만적인 기록이 가득합니