2010-04-09 10 views
2

를 사용하는 보안 URL에서 페이지를 긁어내는 것은 : 그것은 안전하고, 보이는 https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0가능하게하는 방법이 같은 페이지를 긁어 세션 ID

그것은 리퍼러를 요구처럼. wget 또는 httplib2를 사용하여 아무 것도 얻을 수 없습니다.

이 페이지를 살펴보면 목록이 표시되며 브라우저에서는 작동하지만 명령 줄에서는 작동하지 않습니다. https://www.procom.ca/jobsearch.aspx

커맨드 라인 가져 오기에 관심이 있습니다.

+0

보세요. 피들러를보세요. 요청을 검사하고 재생할 수 있습니다. –

답변

3

의심스러운 것으로, 리퍼러가 필요합니다. 작동 방식 :

import urllib2 
    urlopen = urllib2.urlopen 
    Request = urllib2.Request 
    url = 'https://www.procom.ca/JobList.aspx?keywords=&Cities=&reference=&JobType=0' 
    headers = {'Referer' : 'http://www.stackoverflow.com'} 
    req = Request(url, None, headers) 
    handle = urlopen(req) 
    print handle.read() 
0

POST 또는 Get에서 보내는 데이터는 무엇입니까? Firebug Net Panel의 POST/GET 메시지를 통해 보도록 권하고 싶습니다. 해당 페이지에는 시간 의존적이고 각 페이지로드시 변경되는 많은 숨겨진 값이 있습니다. 한 번 유효하므로 페이지를로드하고 그 값을 가져 와서 POST 메시지와 함께 보내십시오. 이 부분을 참조하십시오

<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" /> 
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" /> 
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" /> 
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEwODIzNjMxMzEPFgIeEUdyaWRTb3J0RGlyZWN0aW9uCyo..." />