2017-11-14 10 views
0

저는 현재 자바 아파치 공유지로 웹 스파이더를 만들고 있습니다. 내가 차단됩니다 약 60 쿼리 후 https://google.com/search?q=word&hl=en 어떻게 든HTTP 요청 가져 오기 - 실제로 어떤 데이터가 전송됩니까?

같은 기본 Google 검색어를 크롤링하고있어, 그들이 봇 나를 인식 보인다 나는 503 서비스를 사용할 수 없음 응답을 지금

중요한 부분을 얻을 : firefox/chrome으로 같은 사이트를 방문하면 원하는 결과를 얻습니다. 동일한 HTTP 헤더 (사용자 에이전트, 쿠키, 캐시 등)를 사용하여 응용 프로그램과 함께 GET 요청을하면 여전히 차단됩니다. 단지 IP 및 정보와 같은 HTTP 헤더가있는 경우 구글이 나는 응용 프로그램 또는 크롬 브라우저를 통해 연결하고 있습니다 여부를 알 수 않는 방법

는? (어쩌면 내가 틀렸다?) 이 더 많은 매개 변수가 내 응용 프로그램을 인식합니까? Google이 보는 것과 그렇지 않은 것?

(아마 중요한 : 나는 크롬 개발자 도구를 사용하고 있는데 httpbin.org 브라우저 및 응용 프로그램의 헤더를 비교합니다.)

감사합니다 당신이를 보내 얼마나 빨리 지정하지 않은 때문에 많은

답변

1

을 60 쿼리, 나는 높은 속도로 추측하고있다. 이것이 Google이 귀하를 차단하는 이유입니다. 몇 번이나 크롬에서 Google 검색을 빠르게 완료 한 후 잠시 후 보안 문자를 요청한 후 곧 차단합니다.

Replacement for Google API

자주 묻는 질문 차단 검색을 맞춤 검색의 API 및 서비스의 용어에 대한이 게시물을 참조하십시오 Google FAQ

+0

감사합니다, 아마 아직 .. 내가 처음에 차단 된 이유를 먹으 렴, 나는 경우 나중에 내 애플 리케이션에서 하나의 요청을 확인, 나는 여전히 브라우저가 잘 작동하는 동안 차단 얻을 .. 어떻게 두 Google을 구별합니까? – Schnurbert

+0

그리고 하나의 요청 사이에 어떤 시간 간격을 기다려야합니까? 나는 5 + 무작위 (5 초)를 일찍 시도했지만 어쨌든 막혔습니다. – Schnurbert

+0

답변에 대한 참조 링크가 추가되었습니다. – chongo2002