2013-04-26 22 views
1

CSV를 R로 읽어 들이고 tm 패키지로 코퍼스를 만들고 싶지만 원하는 결과를 얻지 못합니다. 현재 텍스트의 CSV로 읽은 다음 코퍼스를 검사 할 때 데이터는 모두 숫자입니다. 나는 이름의 CSV 읽을 것을 시도하고있다 :R tm 패키지 DataframeSource 가져 오기

library(tm) 

data <- read.csv("filename.csv") 
head(data)  
    Directory.Code First.Name Last.Name 
1  SCA0025  Nbcde Cdbaace 
2  SCA0025 AJCocei aiceice 
3  SCA0025  aceca Ac;eice 
4  SCA0025  Acoicm aie;cee 
5  SCA0025  acei  aciomac 
6  SCA0025  caeij CIMCEv 

data.corp <- corpus(DataframeSource,data) 
inspect(data.corp[1]) 
A corpus with 1 text document 

The metadata consists of 2 tag-value pairs and a data frame 
Available tags are: 
    create_date creator 
Available variables in the data frame are: 
    MetaID 

$`1` 
16 
2195 
6655 
6613 
1 
5 
9757 
1 
1 

그것은 목적을 알고 도움이된다면;합니다 (검사 결과에서와 같이 구를가 난 단지 개인 정보를 보호하기 위해 data의 처음 세 개의 열이 포함되어 있습니다.) 정규화되지 않은 직책/설명을 입력 한 다음 알려진 제목/설명의 코퍼스를 범주로 비교합니다. 이제이 형식을 입력하면이 CSV가 테스트/예측 데이터가 될 것이라는 것을 알지만 여전히 colnames = KnownJobTitle, Description을 사용하여 CSV에서 자료를 작성하려고합니다.

이 질문의 목표는 CSV를 성공적으로 코퍼스로 읽는 것입니다.하지만 2 개 이상의 분류에 tm 패키지를 사용하는 것이 좋을지, 다른 패키지가 더 많은지 알고 싶습니다. 이 작업에 적합합니다.

+0

이것은 도움이 될 것입니다 : http://stackoverflow.com/a/15693766/1036500 – Ben

답변

1

비슷한 오류가 발생합니다. 이것은 csv에서 읽은 텍스트 필드가 char이 아닌 범주 형이기 때문입니다. 다음과 같이 문자를 먼저 변환해야합니다.

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)