2016-07-07 3 views
0

IMDB에서 영화의 리뷰를 추출했으나 별도의 리뷰에 빈 리뷰가 많이 있습니다. 그것은 구조화되지 않았으며보기가 매우 어렵습니다. 각각의 기능을 개별적으로 적용한 다음 다른 기능의 텍스트 마이닝을 위해 1로 저장해야합니다.rvest를 사용하여 IMDB에서 영화 리뷰 스크랩

어떻게 구조를 정리하고 (한 번에 하나씩) 액세스 할 수 있습니까? 또한이를 결합하고 함께 저장하는 방법은 무엇입니까?

여기 리뷰를

ID <- 1490017 
URL <- paste0("http://www.imdb.com/title/", ID, "/reviews?filter=prolific") 
MOVIE_URL <- read_html(URL) 
ex_review <- MOVIE_URL %>% 
html_nodes("p") %>% 
html_text() 

답변

1

난 당신이 DOM을 탐색 할 때 더 구체적인 것을 제안을 긁어 내 코드입니다. 각 리뷰에 함수를 적용하고, 병합,

ID <- 1490017 
URL <- paste0("http://www.imdb.com/title/tt", ID, "/reviews?filter=prolific") 
MOVIE_URL <- read_html(URL) 
ex_review <- MOVIE_URL %>% html_nodes("#pagecontent") %>% 
    html_nodes("div+ p") %>% 
    html_text() 

을 그리고 여기에 줄 바꿈을 제거하는 방법입니다 : 예를 들어,이 코드는 당신이 아마도 긁어보고되지 않은 기타 정보의 검토 및 없음을 제공합니다 한 단락으로 리뷰 (또한 합치 벡터 요소에이 post 줄 바꿈 교체에이 post 참조)

ex_review <- gsub("[\r\n]", " ", ex_review) # replace line breaks 
sapply(ex_review, function(x){}) # apply function to each review 
ex_review <- paste(ex_review, collapse = "") # concatenate reviews into one paragraph 
write(ex_review, "test.txt") 

난 당신이 또한 URL에서 "TT를"없어진 것 같아요.

+0

이것은 크게 추출을 향상 시켰습니다. 답변을 많이 보내 주셔서 감사합니다. 그러나 내 주요 문제는 내가 그렇게 할 수 없기 때문에 내가 추출한 리뷰를 처리 할 수 ​​있었다. 각 검토 사이에 여러 줄을 제거하는 것을 제거하는 것처럼 그들을 처리했다. 또한 모든 리뷰의 큰 단락을 구성하기 위해 텍스트를 결합하십시오. 이후 전반적인 분석도해야합니다. –

+0

수정 된 답변이 효과가 있습니까? – motorrrr

+0

이 방법을 사용하면 줄 바꿈이 제거되지 않습니다. 다른 것들은 잘 작동합니다. –