2017-09-13 4 views
1

에 가져 오기 때문에 이미 TDM이 있지만 Excel에있었습니다. 그래서 저는 이것을 CSV로 저장했습니다. 이제 분석을하고 싶지만 tm 패키지를 사용하여 TDM으로로드 할 수 없습니다. 내 CSV이 같은 같습니다CSV 형식의 용어 문서 매트릭스를 R

myDTM <- as.DocumentTermMatrix(df, weighting = weightBin) 

그러나로드 :

  item01 item02 item03  item04 


red   0   1   1   0 
circle  1   0   0   1 
fame  1   0   0   0 
yellow  0   0   1   1 
square  1   0   1   0 

그래서 나는 TDM로 해당 파일을로드 할 수 없었던을, 지금까지 시도했습니다 최선은 이것이다 모든 셀

<<DocumentTermMatrix (documents: 2529, terms: 1952)>> 
Non-/sparse entries: 4936608/0 
Sparsity   : 0% 
Maximal term length: 27 
Weighting   : binary (bin) 
Sample    : 

      Terms 
Docs   item01 item02 item03 item04 
     Red  1  1  1  1     
     Circle  1  1  1  1   
     fame  1  1  1  1 

내가 코퍼스과 다른 것들에 처음으로 변환 시도했다하지만 난 검사 (TDM)와 같은 모든 기능을 사용하려고 할 경우이이 식물 또는 유사한 같은 오류를 반환

1 개의.

Error in `[.simple_triplet_matrix`(x, docs, terms) : 

올바른 형식으로 가져올 수있는 방법이 없다고 생각하십니까? 미리 감사드립니다.

답변

0

먼저 CSV를 스파 스 매트릭스로 변환 해보십시오. 내 CSV는 내가 직접 입력했기 때문에 당신과 다릅니다. 그러나 같은 생각입니다.

> library(tm) 
> library(Matrix) 
> myDF <- read.csv("my.csv",row.names=1,colClasses=c('character',rep('integer',4))) 
> mySM <- Matrix(as.matrix(myDF),sparse=TRUE) 
> myDTM <- as.DocumentTermMatrix(mySM,weighting = weightBin) 
> inspect(myDTM) 

<<DocumentTermMatrix (documents: 5, terms: 4)>> 
Non-/sparse entries: 7/13 
Sparsity   : 65% 
Maximal term length: 6 
Weighting   : binary (bin) 
Sample    : 
     Terms 
Docs  item01 item02 item03 item04 
    circle  1  1  0  0 
    fame  1  0  0  0 
    red   0  0  0  0 
    square  1  0  1  0 
    yellow  0  0  1  1 
> 
+0

끔찍한 매트릭스가 해결되었습니다. 감사! –