2011-11-09 4 views
0

아닌 사소한 사용자 시나리오의 HTML 결과를 화면 긁어 : 1.이 2. 3. 게시물 다양한 리디렉션 및 프레임 사용을 통해 이동합니다 양식 (게시물) 로그인 폼에 텍스트를 입력하고 제출 홈페이지.내가 어떻게 내가 브라우저에서 대화 형으로 그 일을 한 경우, 여러 작업 및 페이지로드를 포함 할 페이지의 HTML을 얻을 수 있기를 원하는

쿠키가이 과정을 통해 구성된다. 브라우저에서

, 제출 한 후, 난 그냥 페이지를 얻을.

그러나 PHP 나 기타 또는 wget 또는 다른 저수준 기술의 컬 (curl)로이를 수행하기 위해 쿠키, 리디렉션 및 프레임 세트 관리는 모두 매우 어려운 일이되어 내 스크립트를 웹 사이트에 매우 밀접하게 바인딩합니다 나는에서 근근이 살아가고있어 웹 사이트의 경우에도 작은 변화.)에 매우 민감

는 사람이 할 수있는 방법을 제안 할 수 있습니까?

는 이미 지렛대PhantomJS살쾡이 (cmd_log/cmd_script 옵션)하지만 난 파이어 폭스 나 크롬에서 할 거라고 정확히 모방하기 위해 모든 것을 함께 체인하는 것은 어렵다 살펴 보았다.

셀레늄 RC를 사용하는이 작업을 수행하는

+0

어떤 프로그래밍 언어 당신이 이상적으로 작동할까요? 원하는 언어로 된 작은 샘플로 답변을 업데이트 할 수 있습니다. –

+0

perl, python 및 ruby에서 사용할 수있는 mechanize를 살펴볼 수 있습니다. – pguardiario

답변

2

한 가지 방법 (여담으로, 심지어이 스크립트 파이어 폭스 나 크롬 또는 "진짜"브라우저 생각하는 대상 웹 사이트에 필요한/유용 할 수 있습니다) . 일반적으로 테스팅에 사용되지만, 핵심은 브라우저 원격 제어 서비스 일뿐입니다.

사용 출발점으로이 웹 사이트 : http://seleniumhq.org/projects/remote-control/

0

당신은 로봇을 기록하고 재생할 수 irobotsoft에서 IROBOT를 사용할 수 있습니다.

저수준 컨트롤을 선호하는 경우 HTQL 파이썬 인터페이스를 사용할 수 있습니다 (http://htql.net/htql-python-manual.pdf 참조). 그것은 당신이 Python에서 IE 기반 브라우저에 액세스 할 수 있습니다.

0

Firebug와 같은 도구를 사용하여 로그인을 위해 어떤 헤더가 웹 사이트에 제출되었는지 확인한 다음 코드에 정확하게 복제하십시오.

아니면 브라우저로 로그인 한 다음 코드에서 쿠키를 다시 사용하십시오.