2017-10-08 8 views
1

나는 보고서를 온라인으로 읽을 R에서 프로그램을 개발 및 제 2 개 라인은 다음과 같습니다 : 프로그램의 나머지 부분은 잘 작동하고 내가 필요한 데이터를 가지고왜 grep()이 readLines() 후에 작동하지 않습니까?

page1 <- readLines("http://reportviewer.tce.mg.gov.br/default.aspx?server=noruega&relatorio=SICOM_Consulta/2013_2014/Modulo_AM/UC03-LeisOrc-RL&municipioSelecionado=3100203&exercicioSelecionado=2014") 
line1 <- grep("Leis Autorizativas",page1) 

. 그럼 난 다른 보고서를 읽고 그것을 적응하려고했으나 이번에는 두 번째 줄은 작동하지 않았다

page2 <- readLines("http://reportviewer.tce.mg.gov.br/default.aspx?server=noruega&relatorio=SICOM_Consulta/2013_2014/Modulo_AM/UC08-ConsultarDecretos-RL&municipioSelecionado=3101607&exercicioSelecionado=2013") 
line2 <- grep("Decretos de Alterações",page2) 

을 제 1의 경우 'PAGE1'에서 문자 벡터이며, 두번째 경우 '페이지 2는'이다 a 큰 문자 문자 벡터. 이 차이로 인해 문제가 발생했을 가능성이 있습니까? 그렇다면 아무도 그것을 고치는 방법에 대한 힌트를 가지고 있습니까?

감사합니다 (좋은 결과를 생성하지 않았다 htmltab() 또는 readHTMLtable()를 사용).

+0

당신이 내 말 – akrun

답변

2

"Decretos de Alterações"가 ascii 문자로 완전히 구성되지 않았기 때문입니다.

당신이 그것을 작동

page2 <- readLines("http://reportviewer.tce.mg.gov.br/default.aspx?server=noruega&relatorio=SICOM_Consulta/2013_2014/Modulo_AM/UC08-ConsultarDecretos-RL&municipioSelecionado=3101607&exercicioSelecionado=2013") 

grep("Decretos de Altera&#231;&#245;es ", page2) 

[1] 366 

로 시도하십시오.

utf8ToInt("ç") 
[1] 231 

그런 다음 &; 사이에 결과 수를 놓고, 당신의 비 ASCII 문자를 대체합니다

는 교체 넣어 어떤 번호를 알고.

최저

콜린

+0

, 그레이트 콜린에 열 수 없습니다 보여 주었다 링크를! 고맙습니다. – ViniLima