나는 대학을위한 데이터 시각화 프로젝트를 위해 blogger.com에서 데이터를 수집하기 위해 거미를 만들고 있기 때문에 이것을 묻습니다.<인기있는 웹 사이트를 여기에 삽입하십시오> 너무 많이 요청하면 웹 사이트에 액세스하지 못하도록합니까?
스파이더는 블로거의 browse function에서 약 17,000 개의 값을 찾고 올바른 기준에 맞는 특정 메일을 저장합니다 (익명으로).
나는 거미 (PHP로 작성)를 실행 해 왔지만 정상적으로 작동하지만 내 IP를 블랙리스트에 올리거나 그런 식으로하고 싶지 않습니다. 누구든지 엔터프라이즈 사이트에 대한 지식이 있으며 이러한 것들에 대한 제한이 있습니까?
또한 제한 사항이있을 경우이를 피할 수있는 방법이 있습니까? 지금 내가 생각할 수있는 것은 문제를 약간 도와주는 것입니다. 사이트 호출 (0 ~ 5 초 사이) 사이에 임의의 지연을 추가하거나 임의의 프록시를 통해 스크립트를 실행하여 요청을 가장합니다.
위의 방법과 같은 작업을 수행하면 잘못한 것처럼 느껴집니다. blogger.com이 Google에 의해 소유되고 그들의 주요 제품이 웹 스파이더이기 때문에 어떤 이유로 든 나를 차단하려는 경우 화가 났을 것입니다. 그렇다고해서 거미가 요청을 하나의 웹 사이트로 보내지는 않습니다.
+1. API조차도 특정 한도 (예 : x 초당 호출 수)를 갖지만 더 안정적이며 무엇보다 합법적입니다. – keyboardP
감사합니다. API가 있다는 것을 전혀 알지 못했습니다. 그러나 블로거 용 Google의 API를 사용하면 사용자별로 작업을 수행 할 수 있습니다. 나는 위치 당 또는 관심 기반별로 일을해야한다. 즉 특정 위치 또는 관심사를 가진 모든 사용자를 확보해야합니다. (참고 : 내가 모든 사용자를 얻는다 고 말할 때 실제로 모든 사용자가 필요하지는 않지만 100-500 사이의 사용자는 괜찮을 것입니다.) Google에 이메일을 보내거나 접근 방식을 변경해야합니다. – betamax
그들에게 물어 보면 항상 그들이 당신을 실망 시키면 당신이 누구인지를 알게 될 위험이 있습니다. 하지만 위험을 감수하면서 한계를 극복하고 블랙리스트에 올리는 것이 더 좋습니다. –