2017-11-17 2 views
0

R의 readLines() 함수를 사용하여 url의 HTML 내용을 읽으려고합니다. 그러나 아래와 같이 "incomplete final line found" 경고 메시지가 나타 납니까? 이 경우 최종 줄을 건너 뛸 수 있습니까? 어떤 제안이라도 대단히 감사 할 것입니다.readline()을 사용하여 URL을 읽을 때 불완전한 마지막 줄을 찾을 때 오류가 발생했습니다. R

x <- readLines("https://in.finance.yahoo.com/industries/technology") 

Warning message: 
In readLines("https://in.finance.yahoo.com/industries/technology") : 
    incomplete final line found on 'https://in.finance.yahoo.com/industries/technology' 
+1

경고가 아닙니다. 원하는 정보가 들어 있으면 데이터를 확인하십시오. https://www.rdocumentation.org/packages/base/versions/3.4.1/topics/readLines – PhillipD

+0

URL을 보았지만 실제로 읽은 URL (예 : 내 회사의 내부 URL)이 'n'값을 수정하더라도이 경고 메시지를 표시합니다. 페이지에 ~ 1000 행이 있지만'readLines'는 첫 행만 읽는 것 같습니다. 이 문제를 해결하는 방법이 궁금합니다. –

답변

1

대부분의 파일에는 아래 줄에 새 줄과 같은 줄 끝 기호가 없으므로 warn = FALSE를 사용합니다.

cat("abc\ndef\nhij", file="test.txt") 
readLines("test.txt") 
# [1] "abc" "def" "hij" 
# Warning message: 
# In readLines("test.txt") : incomplete final line found on 'test.txt' 
readLines("test.txt", warn=FALSE) 
# [1] "abc" "def" "hij" 
+0

감사합니다. @Chris S.'warn = FALSE' 옵션은 경고 메시지를 제거했습니다. 'readLines()'가 아닌 다른 웹 페이지를 더 빨리 긁을 수있는 다른 방법을 알고 싶습니까? 원래의 질문에서 유감스럽게 생각해서 죄송합니다. –

+0

'rvest'와 같은 대부분의 웹 스크래핑 패키지는 URL을 직접 읽을 수 있기 때문에'readLines'를 건너 뜁니다. XML 패키지에'readLines' 만 필요하고'xmlParse (readLines (my_https_url, warn = FALSE))'와 같은 https를 보안해야한다고 생각합니다. –

+0

다시 한번 감사드립니다. 나는 웹 스크래핑에 대한 많은 경험이 없지만이를 위해'RCurl','rvest','httr' 등의 패키지를 가지고 있음을 알고 있습니다. 나는 같은 SSL 오류를 받고 왜 그 이유를 알아낼 수 없습니다. html 콘텐츠를 추출 할 때'readLines'가 매우 쉽게 작동하는 것으로 나타났습니다. –