특정 웹 페이지의 "a href"를 모두 찾으려고합니다. XML, rvest 또는 splashr에서이를 수행하는 방법에 대한 예제가 있습니다. Rselenium 및 과 함께 사용하고 싶습니다. 먼저 요소를 찾아 getElementAttribute (..., "href")를 찾습니다.RSelenium에서 속성을 어떻게 찾을 수 있습니까?
나는 rvest에서 read_html, html_nodes, html_attr 또는 render와 함께 작동하는 splashr의 render_html과 비슷한 것을 찾고 있습니다.
EDIT : 이상적으로 모든 스크립트가 끝나는 render_html과 유사합니다. 코드의
시작 :
library(rselenium)
rd <- rsDriver(verbose = F)
remotedriver <- rd$client
remotedriver$navigate('https://stackoverflow.com/')
는 지금은 어딘가를 가리키는 모든 URL을 찾는 방법에 박히면서. 나는 시도했다
library(xml)
html_parse <- htmlParse(remote$getPageSource()[1])
그러나 html_parse 개체로 작업하는 데 사용할 수있는 기능을 알지 못한다.
예, 사이트에 javascript가 있으면 rvest가 작동하지 않습니다. 예를 들어 splashr의 render_html과 비교하여 모든 결과를 찾을 수 있습니다. – MLEN
이렇게하면 rvest와 함께 작업 할 수없는 이유를 설명 할 수 있지만 설명 할 수없는 이유는 무엇입니까? PhantomJS, RSelenium 또는 유사한 것으로 페이지를 렌더링하고 렌더링 된 페이지를 다운로드 한 다음 rvest를 계속 진행합니다. – TomS