2016-11-23 6 views
0

호스팅 된 URL을 방문 할 때 이러한 기능을하는 호스팅 제공 업체는 거의 없습니다. 예를 들어처럼 는 호스팅 제공을 고려 웹 사이트는 "vritrasur.com"을 말하자면,이 호스트cron 작업을 사용하여 웹 사이트를 통해 데이터를 구문 분석합니다.

사이트가 인 무엇, 우리는 사이트를 방문하는 경우, "있다

"xtreemhost.com "라고 http://vritrasur.com "다시 다시로드하면

,이된다"http://vritrasur.com/?i=1http://vritrasur.com/?i=2는 "

가 문제"가 할 수있는 URL을 업데이트 할 것 "

내가 PHP 스크립트가를 업로드 같은 웹 사이트 (내 웹 사이트 중 하나에서 방금 그런 서버 중 하나에서 호스팅) 에드, 그리고 매시간 그 스크립트를 실행해야합니다. 수동으로 할 수있는 어리 석음 때문에 나는 cron 작업을 할 생각이었습니다.

크론 작업이 요청을 할 때마다

는 url은이

<html> 
    <body> 
     <script type="text/javascript" src="/aes.js" ></script> 
     <script> 
      function toNumbers(d){ 
       var e=[]; 
       d.replace(/(..)/g,function(d) { e.push(parseInt(d,16)) }); 
       return e 
      } 
      function toHex(){ 
       for(var d=[],d=1==arguments.length&&arguments[0].constructor==Array?arguments[0]:arguments,e="",f=0; 
       f<d.length;f++)e+=(16>d[f]?"0":"")+d[f].toString(16); 
       return e.toLowerCase() 
      } 
      var a=toNumbers("f655ba9d09a112d4968c63579db590b4"),b=toNumbers("98344c2eee86c3994890592585b49f80"),c=toNumbers("9f38f758d71e0c6e0e935c8c90e0cce1"); 
      document.cookie="__test="+toHex(slowAES.decrypt(c,2,a,b))+"; 
      expires=Thu, 31-Dec-37 23:55:55 GMT; path=/"; 
      location.href="http://raghavrao.com/homeimage/reasontorely/infra1.png?i=1"; 
     </script> 
     <noscript>This site requires Javascript to work, please enable Javascript in your browser or use a browser with Javascript support</noscript> 
    </body> 
</html> 

기술적으로 같은 오류가 서버 따라서 자동화 된 봇 방지, 내 브라우저에서 일부 쿠키를 설정하고, 다음 URL을 업데이트하고있다 던졌습니다 서버를 통해 데이터를 스크랩합니다.

제 질문은 이러한 장애물이 있더라도 스크랩 할 수 있습니다.

예인 경우 표시 방법을 알려주세요. 연구 후

답변

0

내가 구글이 https://www.google.nl/#q=site:vritrasur.com와 웹 사이트 vritrasur.com를 색인하고 구글이 난 사용자 에이전트를 시도했습니다 있도록 자동화 된 로봇이라고 볼 수있다 "Google 검색/2.1 (+ http://www.googlebot.com/bot.html)"그리고 난 자바 스크립트와 __test없이했다 쿠키. 당신

<?php 

$ch = curl_init(); 

curl_setopt($ch, CURLOPT_URL, "http://vritrasur.com"); 
curl_setopt($ch, CURLOPT_USERAGENT, "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"); 

curl_exec($ch); 
curl_close($ch); 

?> 
+0

선생님으로, 메신저는 나 URL을 설정할 수있는 cron 작업을 사용하여 내가 코드 오프 나머지 가져 오는 데 사용

PHP 코드입니다. –

+0

왜냐하면 나는 컬을 사용할 수 없기 때문에 어떻게 사용자 에이전트를 설정할 수 있습니까? –

+0

@yogesh prajapati cronjob을 정교하게 작성하는 것은 일정한 프로그램이없는 웹 사이트를 스크랩 할 수없는 예정된 작업입니다. –