2016-11-27 8 views
0

오늘 text2vec 패키지가 나왔습니다. 특정 문제에 정확히 필요한 부분입니다. 그러나 text2vec로 만든 dtm을 일종의 출력 파일로 내보내는 방법을 알아낼 수 없었습니다. 내 궁극적 인 목표는 text2vec를 사용하여 R로 피쳐를 생성하고 결과 행렬을 추가 모델링을 위해 H2O로 가져 오는 것입니다. H2O는 CSV 또는 SVMLight 형식을 읽을 수 있습니다.파일 (csv 또는 svmlight)에 text2vec dtm 작성

내가 만든 첫 번째 것은 987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries이므로 꽤 큽니다. 너무 크기 때문에 as.matrix()를 사용하여 CSV에 쓸 수 없습니다. SVML 형식으로 쉽게 작성할 수 있다고 생각했지만 작동하는 라이브러리를 찾을 수 없었습니다. 누구든지이 출력물을 내가 물로 읽을 수있는 파일로 가져 오는 다른 옵션이 있습니까?

답변

1

할 수있는 몇 가지 패키지가 있습니다. https://github.com/Laurae2/sparsity - imho 가장 유망한 :

library(text2vec) 
library(sparsity) 
data("movie_review") 
N = 5000 
tokens = movie_review$review[1:N] %>% tolower %>% word_tokenizer 
it = itoken(tokens, progressbar = T) 
dtm = create_dtm(it, hash_vectorizer()) 
write.svmlight(dtm, labelVector = movie_review$sentiment, file = "dtm.svmlight") 
+0

감사합니다. 나는 그들 중 몇 명 (이 하나 포함)을 우연히 만났고 그들 중 누구도 일하지 않았다. 그들은 모두 어떤 종류의 오류 또는 다른 것을 던져 버립니다. –

+0

잘 알고 있습니다. 나는 그 문제가 무엇인지 알아 내려고 노력할 것이다. –

+1

@ dave-kincaid 모든 것이 잘 작동합니다. 예를 들어 업데이트 된 답변을 참조하십시오. 신고하신 문제를 발견했습니다. https://github.com/felixr/sparsity/issues/1. 문제는'labelVector'가 수치 대상 변수 여야한다는 것이다. –