2014-11-25 6 views
3

나는 Google 주소 범위 (66.249.65. * - 아마도 IP 스푸핑)에서 여러 번 요청 (5/초 하루 종일)으로 공격을 당했다고 생각합니다. 이 요청은 http 헤더에 googlebot 서명 (Googlebot/2.1; + http://www.google.com/bot.html)을 갖지만 이전 URL을 얻으려고합니다 (나는 그것을 비활성화합니다. 이는 많은 CPU/$를 소비했기 때문입니다). 내가 블랙리스트에이 IP 범위를 넣어, 내가 :(역시 합법적 인 Googlebot이 차단Google 주소 범위에서 DoS 공격

그리고 아이러니 :.! 내 애플 (http://expoonews.com) 구글 앱 엔진 서비스에 의해 호스팅되는

를 내가이 동작을 중지 할 수 있습니다 방법 블록 구글 봇없이? 내 로그의 샘플 아래

더 잘 이해합니다.

A 2014-11-25 19:41:19.145 404 234 B 10ms /AddPageAction?url=http%3A%2F%2Flincoln.pioneer.kohalibrary.com%2Fcgi-bin%2Fkoha%2Fopac-search.pl%3Fidx%3Disbn%26q%3D1842172131%26do%3DSearch 
66.249.65.82 - - [25/Nov/2014:13:41:19 -0800] "GET /AddPageAction?url=http%3A%2F%2Flincoln.pioneer.kohalibrary.com%2Fcgi-bin%2Fkoha%2Fopac-search.pl%3Fidx%3Disbn%26q%3D1842172131%26do%3DSearch HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=10 cpu_ms=0 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 

A 2014-11-25 19:41:19.550 404 234 B 11ms /AddPageAction?url=http%3A%2F%2Fwww.dnevniavaz.ba%2Fkultura%2Ffilm%2Fprica-o-hapsenju-ratnog-zlocinca 
66.249.65.86 - - [25/Nov/2014:13:41:19 -0800] "GET /AddPageAction?url=http%3A%2F%2Fwww.dnevniavaz.ba%2Fkultura%2Ffilm%2Fprica-o-hapsenju-ratnog-zlocinca HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=11 cpu_ms=23 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 

A 2014-11-25 19:41:19.956 404 234 B 12ms /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FNewcastle_Local_Municipality 
66.249.65.78 - - [25/Nov/2014:13:41:19 -0800] "GET /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FNewcastle_Local_Municipality HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=12 cpu_ms=0 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 

A 2014-11-25 19:41:20.426 404 234 B 10ms /AddPageAction?url=http%3A%2F%2Ftools.wmflabs.org%2Fgeohack%2Fgeohack.php%3Fpagename%3DRio_Grande_County%252C_Colorado%26params%3D37.61_N_-106.39_E_type%3Aadm2nd_region%3AUS-CO_source%3AUScensus1990 
66.249.65.86 - - [25/Nov/2014:13:41:20 -0800] "GET /AddPageAction?url=http%3A%2F%2Ftools.wmflabs.org%2Fgeohack%2Fgeohack.php%3Fpagename%3DRio_Grande_County%252C_Colorado%26params%3D37.61_N_-106.39_E_type%3Aadm2nd_region%3AUS-CO_source%3AUScensus1990 HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=10 cpu_ms=23 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 

A 2014-11-25 19:41:20.763 404 234 B 11ms /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2F%23cite_ref-Istanbul_43-1 
66.249.65.86 - - [25/Nov/2014:13:41:20 -0800] "GET /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2F%23cite_ref-Istanbul_43-1 HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=11 cpu_ms=0 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 

A 2014-11-25 19:41:21.166 404 234 B 10ms /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2Fw%2Findex.php%3Ftitle%3DHMAS%2520Pirie%26action%3Dhistory 
66.249.65.86 - - [25/Nov/2014:13:41:21 -0800] "GET /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2Fw%2Findex.php%3Ftitle%3DHMAS%2520Pirie%26action%3Dhistory HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=10 cpu_ms=0 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 

A 2014-11-25 19:41:21.571 404 234 B 11ms /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2Fw%2Findex.php%3Ftitle%3DUniversity_of_Engineering_and_Technology_Taxila_Chakwal_Campus_University_of_Engineering_and_Technology_Taxila_Chakwal_Campus%26action%3Dedit%26redlink%3D1 
66.249.65.78 - - [25/Nov/2014:13:41:21 -0800] "GET /AddPageAction?url=http%3A%2F%2Fen.wikipedia.org%2Fw%2Findex.php%3Ftitle%3DUniversity_of_Engineering_and_Technology_Taxila_Chakwal_Campus_University_of_Engineering_and_Technology_Taxila_Chakwal_Campus%26action%3Dedit%26redlink%3D1 HTTP/1.1" 404 234 - "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "expoonews.com" ms=11 cpu_ms=23 cpm_usd=0.000026 instance=00c61b117c8ad4ca005d37349157867d41adaf app_engine_release=1.9.16 
+0

이러한 패턴은 보안 검색 실행을 나타낼 수도 있습니다. https://cloud.google.com/security-scanner/using-the-scanner –

답변

0

매개 변수 (다른 페이지로의 URL)를받는 URL을 제거하여 문제가 해결 된 것 같습니다.

나는 웹 URL이 특정 사이트에 대한 액세스를 위조하기 위해 열려 있는지 파악하려고 시도합니다 (금액 액세스를 늘려주기 위해). 내 URL은 명확하게 노출되었습니다 (주소는 동시에 GET이었습니다).

하지만 답변 주셔서 감사합니다.

0

당신은 특정 디렉토리 나 페이지를 사용하여 허용하려고 할 수 robots.txt에 http://www.robotstxt.org/robotstxt.html

+0

을 참조하십시오. 그러나 문제는 아닙니다. 나는 어쩌면 google 인프라를 사용하는 공격이라고 생각합니다. – Fulvius

0

app.yaml과 함께 응용 프로그램의 루트 디렉토리에있는 dos.yaml 파일은 응용 프로그램에 대한 DoS 보호 서비스 블랙리스트를 구성합니다. 다음은 예제 dos.yaml 파일입니다

blacklist: 
- subnet: 1.2.3.4 description: a single IP address 
- subnet: 1.2.3.4/24 description: an IPv4 subnet 
- subnet: abcd::123:4567 description: an IPv6 address 
- subnet: abcd::123:4567/48 description: an IPv6 subnet 

https://cloud.google.com/appengine/docs/python/config/dos

+0

하지만 블록 정품 googlebot 요청없이 어떻게해야합니까? – Fulvius

+0

A) 요청이 진짜인지 확인합니다. B) 그렇지 않은 경우 차단합니다. 그들이 진짜라면 indexd되고 싶다면 그들을 차단하지 마십시오. –

0

, 그들은 URL을 반환 할 때까지 자주 색인 생성 된 URL에 액세스하려고 당신은 적어도 기존의 URL에 액세스하는 정품 Googlebot이 차단 robots.txt를 작성해야 404 또는 삭제 된 것으로 표시되는 기타 다른 방법으로

Googlebot 자체가 스팸처럼 수행하기 때문에 실제로 가짜 로봇인지 확실하지 않습니다. 단기간에 너무 많은 페이지에 액세스하십시오.

googlebot (가짜 또는 정품)에서 액세스 수를 줄이려면 어떻습니까?

#allows access 100times/m 
dos_n = memcache.get(key=bot_ip) 
if dos_n != None: 
    if dos_n>100: 
     self.abort(400) 
    dos_n = memcache.incr(bot_ip) 
else: 
    memcache.add(key= bot_ip, value=0, time=60) 

호스트 정보가 없으면 웹 마스터 도구에서 크롤링 빈도를 변경할 수 있습니다. https://www.google.com/webmasters/tools/

1

Googlebot이 귀하의 웹 사이트 자체 또는이 사이트의 URL을 하드 코드하여 Googlebot을 사용하여 공격을 시작한 다른 공격자에게 저장된 주사를받는 것으로 보입니다.

웹 애플리케이션 방화벽은 이러한 서명을 감지하고 이러한 요청을 거부 할 수 있습니다 당신을 위해 좋은 해결책이 될 수있는 명시 적으로

아파치 ModSecurity를 ​​또는 Google에서 Nginx에 NAXSI를 찾아보십시오!

-1

URL에서 의심스러운 기능과 관련된 googleBot 웹 크롤링 최근에 사이트의 페이지를 추가하거나 변경 한 경우 Fetch as Google 도구를 사용하여 Google에 색인을 다시 요청하도록 요청할 수 있습니다.