2017-09-19 12 views
1

특정 웹 페이지의 "a href"를 모두 찾으려고합니다. XML, rvest 또는 splashr에서이를 수행하는 방법에 대한 예제가 있습니다. Rselenium 및 과 함께 사용하고 싶습니다. 먼저 요소를 찾아 getElementAttribute (..., "href")를 찾습니다.RSelenium에서 속성을 어떻게 찾을 수 있습니까?

나는 rvest에서 read_html, html_nodes, html_attr 또는 render와 함께 작동하는 splashr의 render_html과 비슷한 것을 찾고 있습니다.

EDIT : 이상적으로 모든 스크립트가 끝나는 render_html과 유사합니다. 코드의

시작 :

library(rselenium) 
rd <- rsDriver(verbose = F) 
remotedriver <- rd$client 
remotedriver$navigate('https://stackoverflow.com/') 

는 지금은 어딘가를 가리키는 모든 URL을 찾는 방법에 박히면서. 나는 시도했다

library(xml) 
html_parse <- htmlParse(remote$getPageSource()[1]) 

그러나 html_parse 개체로 작업하는 데 사용할 수있는 기능을 알지 못한다.

답변

0

나중에 "rvest와 함께 작동하는"sth를 갖고 계시다면 "hrefs"를 긁기 위해 rvest를 사용하지 않으려는 특정 이유가 있습니까?

+0

예, 사이트에 javascript가 있으면 rvest가 작동하지 않습니다. 예를 들어 splashr의 render_html과 비교하여 모든 결과를 찾을 수 있습니다. – MLEN

+0

이렇게하면 rvest와 함께 작업 할 수없는 이유를 설명 할 수 있지만 설명 할 수없는 이유는 무엇입니까? PhantomJS, RSelenium 또는 유사한 것으로 페이지를 렌더링하고 렌더링 된 페이지를 다운로드 한 다음 rvest를 계속 진행합니다. – TomS