2017-11-23 13 views
0

API를 사용하지 않고 회사의 LinkedIn 프로필을 크롤링하고 싶습니다. 다음 코드를 사용할 때 크롤링하는 동안 페이지 리디렉션이 발생합니다.URL을 피하는 방법 Crul이 php를 사용할 때 리다이렉션?

http://localnew/comapnyhttp://linkedin/company으로 리디렉션됩니다. 그것을 방지하는 방법.

<?php 
error_reporting(E_ALL); 
ini_set("display_errors", 1); 
$cookie_file = "cookies.txt"; 
$url = 'https://www.linkedin.com/jobs/searchRefresh?keywords=Engineer&location=United%20States&locationId=us:0&refreshType=fullpage&trk=jobs_jserp_search_button_execute&searchOrigin=JSERP&applyLogin='; 
$c = curl_init($url); 
curl_setopt($c, CURLOPT_FRESH_CONNECT, 1); 
curl_setopt($c, CURLOPT_COOKIEJAR, $cookie_file); 
curl_setopt($c, CURLOPT_COOKIEFILE, $cookie_file); 
curl_setopt($c, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:17.0) Gecko/20100101 Firefox/17.0"); 
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($c, CURLOPT_FOLLOWLOCATION, 0); 
$z = curl_getinfo($c); 
$s = curl_exec($c); 
curl_close($c); 
echo "<pre>";print_r($s);exit; 

?> 

답변

0

귀하의 질문에 이해하기 어렵습니다. 하지만 최선을 다하겠습니다. 귀하의 경우에 대한

가능한 이유 :

  • 그들은 비 실시간 사람으로 요청을 감지합니다. 대규모 사이트가 스파이더/크롤러를 차단하는 것은 일반적입니다.

  • 사용 된 IP는 호스팅 회사입니다. 보통 이들은 블랙리스트에 올라 있습니다.

  • 요청한 항목이 으로 검색되지 않았습니다. 로그인 한 사용자 : 사용자. 유효한 쿠키 파일이이 문제를 해결할 수 있습니다.

내 실제 API로 전환하는 것이 좋습니다.

+0

고마워요. @ ubj.i'm PHP에 익숙하지 않습니다. 제발 저에게 시체를 뿌릴 때 페이지 리디렉션을 방지하는 방법을 제안 해주십시오. LinkedIn의 API는이를 위해 빌드되지 않으므로 PHP로해야합니다. 다른 옵션이 있으면 알려주세요 ... –