2017-05-04 8 views
0

방금 ​​R의 tm 패키지에 대해 알게되었습니다. 폴더에 별도의 .txt 파일이있는 경우이 파일을 R의 파일 형식으로 변환하는 방법을 알고 있습니다.하지만 특정 경우에는 모든 텍스트 데이터가 하나의 파일에 있습니다. 해당 파일의 각 문장은 하나의 문서를 나타내며 앞뒤에 구 ID 및 문장 ID가 있습니다. .tsv 형식 파일은 다음과 같습니다 :텍스트 데이터를 포함한 파일을 Rtm의 코퍼스 형식으로 변환하는 방법

PhraseId SentenceId 156061 8545 간헐적으로 기쁘게하지만 대부분 일상적인 노력. 156062 8545 간헐적으로 기쁘게하지만 대부분 일상적인 노력 156063 8545 156064 8545 간헐적으로 기쁘게하지만 대부분 일상적인 노력 ..... 내가 tm의 코퍼스 형식으로 이러한 파일에서 텍스트 데이터를 변환 할 수있는 방법

?

답변

0

시도 :

library(tm) 

txt<-("PhraseId SentenceId 156061 8545 An intermittently pleasing but mostly routine effort . 156062 8545 An intermittently pleasing but mostly routine effort 156063 8545 An 156064 8545 intermittently pleasing but mostly routine effort ") 

text.corpus<-Corpus(VectorSource(txt))