URL을 문자열로 가져 오기 (웹 스크 레이 핑)

-2

몇 군데 콘텐츠를 얻을 수 있지만 웹 스크래핑에 익숙하지 않습니다. 그러나 이번에는 내 문제가 간단 해 보이지만 웹 페이지에 기호, 이름 및 시장이 포함 된 문자열을 가져올 수 없습니다. 즉, URL에 "Merck KGaA (MRK.DE) -XETRA"문자열을 보내고 싶습니다. 나는 몇 테이블을 반환하는 다음 코드를 시도했다하지만 난 찾고 있어요 조각을 얻을 수 없습니다URL을 문자열로 가져 오기 (웹 스크 레이 핑)

url <- 'https://finance.yahoo.com/q?s=MRK.DE&ql=0' 
require(httr) 
require(XML) 
table <- readHTMLTable(content(GET(url)),header=TRUE)

출처

2014-12-15 nopeva

이 아마 여기에 가장 효율적인 스크립트 아니지만, 확실히 작동 것을 :

library(rvest) 
library(magrittr) 
library(stringr) 

html(url) %>% 
    html_nodes("h2") %>% 
    extract2(3) %>% 
    as('character') %>% 
    str_replace('<h2>', '') %>% 
    str_replace('</h2>', '') 

[1] "Merck KGaA (MRK.DE)"

출처

2014-12-15 15:00:07 maloneypatr

많은 도움을 주셔서 감사합니다. 문자열이 내가 시도한 것과 같은 직접적인 호출로 캡처되지 않은 이유를 알고 있습니까? 한편으로는베이스 R이나 가능한 경우'XML' 또는'httr' /'RCurl'과 같은 표준 패키지를 사용하고 싶습니다. 반면에 코드가 간단할수록 좋습니다. – nopeva

'rvest'는 실제로 Hadley가 Python에서 Beautiful Soup을 미러링하기 위해 최근에 발표 한 패키지입니다. HTML에 대한 강력한 지식이 없으면 가장 직관적이라고 생각했습니다. 당신의 예제에서,'readHTMLTable'은 주어진 페이지의 테이블 데이터만을 긁어 낼 것이고, "Merck ..."가 테이블 안에 있지는 않습니다. – maloneypatr

'html (url) %> % html_nodes ("h2") %> % html_text() %> %. [[3]]' – hadley

URL을 문자열로 가져 오기 (웹 스크 레이 핑)

답변

관련 문제