2014-07-14 9 views
-4

너무 근본적인 경우 죄송합니다. 나는 페이지의 링크를 클릭하고 결과 HTML을 얻는 웹 사이트를 긁어 내고 싶다. 나는 JSDOM이라는 nodejs 모듈에 대해 읽었다.Jsdom 웹 랩

가치있는 것을 찾을 수 없기 때문에 아무도 올바른 방향 (블로그 또는 문서)을 알려주지 못합니다.

편집 1 :
나는 cheerio를 사용했지만 그 기능을 수행하지 않습니다. 나는이 링크의
http://reustle.io/blog/simple-site-scraping-with-nodejs-and-jsdom
없음 실제로 페이지에 JS 조작에 대한 JSDOM를 사용 만 DOM 조작을 다루는 방법을 보여주지 이러한 세 가지 링크를
http://liamkaufman.com/blog/2012/03/08/scraping-web-pages-with-jquery-nodejs-and-jsdom/http://okfnlabs.org/blog/2013/01/15/web-scraping-with-node-css-selectors.html을 발견했다.

+2

질문은 너무 근본적이지는 않지만, 연구 노력을 보이지 않고 너무 광범위하기 때문에 downvoted됩니다. –

답변

0

빠른 Google 검색을 사용하면 필요한 정보를 얻을 수 있지만 웹 스크래핑과 관련된 좋은 링크가 있습니다. JSDOM을 실제로 사용할 필요는 없습니다. Chereio (구문과 같은 jQuery)를 사용하여 HREF CSS 요소를 선택할 수 있습니다.

http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs#commentform

건배.

+1

이것은 Ajax 호출 후 표시되는 데이터가없는 사이트에 유효합니다. 이러한 사이트 7 개를 스크랩했습니다. 몇 가지 버튼을 클릭하여 필요한 데이터를 가져와야하는 몇 가지 사이트에 붙어 있습니다. JSDOM과 클릭 이벤트는 페이지에서 아약스 메소드를 트리거합니다 ... – Babar

0

DOM과 (자바 스크립트 등을 통해) 많은 상호 작용을하는 경우 JSDOM이 브라우저처럼 충분히 작동하지 않는 문제가 발생할 수 있습니다.

PhantomJS (노드 모듈은 exist)을 사용하면 더 나은 행운을 누릴 수 있습니다. 이는 진정한 헤드리스 브라우저 환경을 제공 할 것입니다.