rvest를 사용하여 문서 본문의 원시 텍스트를 읽으십니까?

나는 웹 사이트의 원시 텍스트 내용을 읽기 위해 어리 석 으려하고있다. 목적은 텍스트 분석 (예 : 단어 빈도)을위한 코퍼스를 만드는 것입니다. read_html (nextpage)
쓰기 (thispage, 파일, 추가 -rvest를 사용하여 문서 본문의 원시 텍스트를 읽으십니까?

가

thispage < : 그래서 나는 모든 HTML 멀리 제거 및 태그 안에 내용이 코드를 사용하여

:-) 원시 텍스트로 반환 할 = TRUE 9 월 = "") read_html()는 포인터의 배열 반환하기 때문에

이 오류가 발생합니다

인터페이스가 나를 보자한다면 내가 여기 을 ERR의 MSG를 제출하는 것입니다하지만 난 그냥 빨간를 얻을 수를 상자에 "너의 포스트 항아리 코드를 포함하는 rs ", 그리고 어쨌든 크롬으로 작동하지 않는 몇 가지 지침.

저는 SelectorGadget 등을 사용하여 DOM의 특정 객체를 찾아서 검색 할 수 있음을 알고 있습니다. 그러나 나는 더 쉬운 방법을 희망하고 있었다. 그것이 존재합니까?

감사합니다 + 환호, 자아

출처

2016-11-09 edvin

나는 긁어의 표준 rvest 방법을 시도하는 것이 좋습니다 : 당신의 id와 원시 텍스트를 잡는를 선택한 다음, 모든 HTML을 얻을 :

이

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text()

출처

2016-11-09 16:21:29 kbrunner

물론, 그 무엇의 I 실현하러 왔어. 프레임 워크가 있습니다. 페이지 매김, 모든 URL 잡고, 모두 방문하여 관련 블록, 다음 페이지 등을 긁습니다. 현재 제목 만 처리하고 처리를 별도의 파일로 유지하려고합니다. 그런 다음 나중에 더 큰 자료를 생성하기 위해 별도로 긁는 작업을 개발할 수 있습니다. – edvin

rvest를 사용하여 문서 본문의 원시 텍스트를 읽으십니까?

답변

관련 문제