2009-12-27 3 views
2

나는 대학을위한 데이터 시각화 프로젝트를 위해 blogger.com에서 데이터를 수집하기 위해 거미를 만들고 있기 때문에 이것을 묻습니다.<인기있는 웹 사이트를 여기에 삽입하십시오> 너무 많이 요청하면 웹 사이트에 액세스하지 못하도록합니까?

스파이더는 블로거의 browse function에서 약 17,000 개의 값을 찾고 올바른 기준에 맞는 특정 메일을 저장합니다 (익명으로).

나는 거미 (PHP로 작성)를 실행 해 왔지만 정상적으로 작동하지만 내 IP를 블랙리스트에 올리거나 그런 식으로하고 싶지 않습니다. 누구든지 엔터프라이즈 사이트에 대한 지식이 있으며 이러한 것들에 대한 제한이 있습니까?

또한 제한 사항이있을 경우이를 피할 수있는 방법이 있습니까? 지금 내가 생각할 수있는 것은 문제를 약간 도와주는 것입니다. 사이트 호출 (0 ~ 5 초 사이) 사이에 임의의 지연을 추가하거나 임의의 프록시를 통해 스크립트를 실행하여 요청을 가장합니다.

위의 방법과 같은 작업을 수행하면 잘못한 것처럼 느껴집니다. blogger.com이 Google에 의해 소유되고 그들의 주요 제품이 웹 스파이더이기 때문에 어떤 이유로 든 나를 차단하려는 경우 화가 났을 것입니다. 그렇다고해서 거미가 요청을 하나의 웹 사이트로 보내지는 않습니다.

답변

10

그들은 몇 가지 종류의 제한이있을 수 있습니다. 예 (bot farms와 임의의 프록시를 사용하여)를 우회하는 방법이 있습니다.하지만 그 중 누구도 정확히 합법적이거나 기술적으로 실현 가능성이 거의 없습니다. :)

블로거에 액세스하는 경우 API key을 사용하여 로그인하고 직접 데이터를 쿼리 할 수 ​​없습니까? 어쨌든 금지 될 수있는 자신의 페이지를 긁어내는 것보다 더 신뢰할 수 있고 문제가 발생하기 쉬운 경향이 있으며, 요청 수가 많아서 걱정하기 시작하면 문제가 발생할 수 있습니다. Google은 API 키당 허용되는 트래픽 양이 매우 관대합니다.

다른 모든 것이 실패하면 전자 메일을 보내지 마십시오. Google은 학술 프로젝트에 대한 우호적 인 평판을 얻었으며 필요한 경우 더 많은 트래픽을 제공 할 수 있습니다.

+0

+1. API조차도 특정 한도 (예 : x 초당 호출 수)를 갖지만 더 안정적이며 무엇보다 합법적입니다. – keyboardP

+0

감사합니다. API가 있다는 것을 전혀 알지 못했습니다. 그러나 블로거 용 Google의 API를 사용하면 사용자별로 작업을 수행 할 수 있습니다. 나는 위치 당 또는 관심 기반별로 일을해야한다. 즉 특정 위치 또는 관심사를 가진 모든 사용자를 확보해야합니다. (참고 : 내가 모든 사용자를 얻는다 고 말할 때 실제로 모든 사용자가 필요하지는 않지만 100-500 사이의 사용자는 괜찮을 것입니다.) Google에 이메일을 보내거나 접근 방식을 변경해야합니다. – betamax

+0

그들에게 물어 보면 항상 그들이 당신을 실망 시키면 당신이 누구인지를 알게 될 위험이 있습니다. 하지만 위험을 감수하면서 한계를 극복하고 블랙리스트에 올리는 것이 더 좋습니다. –

1

확실히 알고 싶으면 blogger.com에 전자 메일을 작성하여 질문하십시오.

-2

TOR을 통해 요청할 수 있습니다. 매번 다른 비용을 지불해야합니다.

3

거미를 작성 했으므로 robots.txt 파일을 읽었는지 확인하십시오. 또한 HTTP 규칙 중 하나는 동일한 서버에서 2 개 이상의 동시 요청을 처리하지 않는 것입니다. Google의 서버는 정말 강력합니다. 그 당시에 한 페이지 만 읽는다면 그들은 심지어 알지도 못합니다. 1 초 간격으로 주입하면 완전히 무해합니다.

반면에 봇넷 또는 다른 분산 방식을 사용하는 것은 DDOS 공격처럼 보이기 때문에 해로운 행동으로 간주됩니다. 당신은 정말로 그 방향으로 생각해서는 안됩니다.

+0

+1 좋은 지적, 특히 그의 IP 주소의 명성과 명성에 관심이있는 분. –

+0

robots.txt에 대한 정보를 제공해 주셔서 감사 드리며, 아직 고려하지 않았습니다. 당신이 그것을 놓을 때 그것은 나의 트래픽이 마치 내가 상상할 수있는 블로거에게가는 다른 모든 트래픽 사이에서 잃어 버리게되는 것처럼 보인다. * 그러나 * 그들은 내 요청에 부합하는 시스템을 갖추어야 할 의무가있다. – betamax

+0

'robots.txt'를 준수하면 +1 전공입니다. – ceejayoz