2016-06-01 1 views
1

http://www.aqistudy.cn/historydata/daydata.php?city=%E8%8B%8F%E5%B7%9E&month=201504 이것은 다음 웹 사이트에서 데이터를 읽고 싶습니다. 다음과 같이R을 사용하여 HTML을 읽었지만 실수가 있습니다.

내 코드,

library(XML) 
fileurl <- "http://www.aqistudy.cn/historydata/daydata.php?city=苏州&month=201404" 

doc <- htmlTreeParse(fileurl, useInternalNodes = TRUE, encoding = "utf-8") 

rootnode <- xmlRoot(doc) 

pollution <- xpathSApply(rootnode, "/td", xmlValue) 

이다 그러나 나는 지저분한 코드를 많이 가지고, 나는이 문제를 해결하는 방법을 모르겠어요.

도움을 주셔서 감사합니다.

+0

어떻게 당신이 "고정"원하는가 테이블을 읽을 library(rvest)를 사용하여 단순화 할 수있다 - 당신은 무엇을 그것에서 얻을 바라고있다? – SymbolixAU

+0

방금 ​​페이지의 표를 읽고 싶습니다! – lacfo

답변

1

이 직접

library(rvest) 

url <- "http://www.aqistudy.cn/historydata/daydata.php?city=%E8%8B%8F%E5%B7%9E&month=201504" 

doc <- read_html(url) %>% 
    html_table() 

doc[[1]] 
#   日期 AQI 范围 质量等级 PM2.5 PM10 SO2 CO NO2 O3 排名 
# 1 2015-04-01 106 67~144 轻度污染 79.3 105.1 20.2 1.230 89.5 76 308 
# 2 2015-04-02 74 31~140  良 48.1 79.7 18.8 1.066 51.5 129 231 
# 3 2015-04-03 98 49~136  良 72.9 89.2 16.0 1.323 50.9 62 293 
# 4 2015-04-04 92 56~158  良 67.6 78.2 14.3 1.506 57.4 93 262 
# 5 2015-04-05 87 42~167  良 63.7 56.1 16.9 1.245 50.8 91 215 
# 6 2015-04-06 46 36~56  优 29.1 30.8 10.0 0.817 37.5 98 136 
# 7 2015-04-07 45 34~59  优 27.0 42.4 12.0 0.640 36.6 77 143 
+0

대단히 감사합니다! 데이터를 가져 오는 데 많은 시간을 절약 할 수 있습니다! – lacfo

+0

PM2.5 PM10 SO2 CO NO2'헤더가 이렇게 생겼는데, 뭐가 잘못 됐는지 알아? 고맙습니다! – lacfo

+0

'무엇이 잘못 됐습니까?' 나는 그것이 중국인 인 것처럼 중국어 웹 사이트라고 가정한다. – SymbolixAU