CSV를 R로 읽어 들이고 tm 패키지로 코퍼스를 만들고 싶지만 원하는 결과를 얻지 못합니다. 현재 텍스트의 CSV로 읽은 다음 코퍼스를 검사 할 때 데이터는 모두 숫자입니다. 나는 이름의 CSV 읽을 것을 시도하고있다 :R tm 패키지 DataframeSource 가져 오기
library(tm)
data <- read.csv("filename.csv")
head(data)
Directory.Code First.Name Last.Name
1 SCA0025 Nbcde Cdbaace
2 SCA0025 AJCocei aiceice
3 SCA0025 aceca Ac;eice
4 SCA0025 Acoicm aie;cee
5 SCA0025 acei aciomac
6 SCA0025 caeij CIMCEv
data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1`
16
2195
6655
6613
1
5
9757
1
1
그것은 목적을 알고 도움이된다면;합니다 (검사 결과에서와 같이 구를가 난 단지 개인 정보를 보호하기 위해 data
의 처음 세 개의 열이 포함되어 있습니다.) 정규화되지 않은 직책/설명을 입력 한 다음 알려진 제목/설명의 코퍼스를 범주로 비교합니다. 이제이 형식을 입력하면이 CSV가 테스트/예측 데이터가 될 것이라는 것을 알지만 여전히 colnames = KnownJobTitle, Description을 사용하여 CSV에서 자료를 작성하려고합니다.
이 질문의 목표는 CSV를 성공적으로 코퍼스로 읽는 것입니다.하지만 2 개 이상의 분류에 tm 패키지를 사용하는 것이 좋을지, 다른 패키지가 더 많은지 알고 싶습니다. 이 작업에 적합합니다.
이것은 도움이 될 것입니다 : http://stackoverflow.com/a/15693766/1036500 – Ben