2010-11-23 2 views
0

저는 현재 웹 사이트에서 원하는 정보를 얻기 위해 CyberNeko를 사용하고 있습니다. 그러나, 나는 웹 사이트가 사용자 에이전트/브라우저 버전을 검사하여 URL 컨텐트를 잡는 것을 막을 것이라고 생각한다.그루비 : CyberNeko | 사용자 에이전트 | 브라우저 버전

htmlunit을 사용하여 브라우저 버전을 변경하는 것에 대해 알고 있지만 CyberNeko를 사용하여이 문제를 해결할 수 있는지 확실하지 않습니다.

그런 일을 할 수 있는지 누가 알 수 있습니까?

+0

생각 이것에 대해 잠시 :. 사이트의 소유자가 사람들이 긁어하지 않는 경우 어쩌면 부도덕 한 태도로 우회해서는 안되니? 사이트 소유자에게 연락하는 경우, 그는 스크래퍼가 일반적으로 수행하는 것처럼 사이트에 많은 부하를 가하지 않는 다른 형식으로 데이터를 제공 할 의향이 있을지도 모릅니다. 또는 API를 쉽게 사용할 수 있습니다. 타사에서 사용할 수 있습니다. – Esko

+0

잡으려고하는 콘텐츠의 양은 아주 적습니다. 나는 훨씬 짧은 시간에 자동화 될 수있는 작업을하는 데 1 시간을 보내지 않는 것을 선호합니다. – StartingGroovy

답변

1

CyberNeko는 사용한 적이 없지만 HTML 파서 일뿐입니다. 즉, HTTP 요청을 발행하는 데 사용할 수 없다고 생각하여 실제로 웹 페이지를 다운로드하십시오.

CyberNeko에서 발행 한 HTTP 요청에 사용자 에이전트 헤더와 같은 다양한 헤더가 누락 될 수 있습니다. HTTP 요청이 브라우저에서 보낸 요청처럼 보이게하는 쉬운 방법은 CyberNeko 대신 HttpClient를 사용하여 웹 페이지를 다운로드하는 것입니다. 일부 예제 코드는 here입니다. 성공적으로 페이지를 다운로드하면

, 관심있는 비트를 구문 분석하는 CyberNeko를 사용

+0

네, CyberNeko는 파서처럼 보입니다. HttpClient를 테스트하여 HTTP 요청을 수행했는데 제대로 작동하는 것으로 보였다. CyberNeko를 파싱하고 싶었습니다. 나는 그것을 하나가 아닌 두 부분으로 나누어야 할 것처럼 보입니다. Don 감사합니다. – StartingGroovy