2017-05-18 16 views
-1

R에서 형태소 분석을 한 후에 단어를 완성하는 방법은 무엇입니까?r 텍스트 분석 스템 완료

x <- c("completed","complete","completion","teach","taught") 
tm <- Corpus(VectorSource(x)) 
tm <- tm_map(tm, stemDocument) 
inspect(tm) 

실제 텍스트 코퍼스로 사용하기위한 예제는 훨씬 더 큽니다.

이전에 examples이 동의어 집합을 만들지 만 큰 코퍼스는 동의어 사전과 같은 것을 어떻게 얻을 수 있습니까? 동사의 경우, 어간 단어를 현재 시제로 어떻게 완성 할 수 있습니까? 감사합니다

답변

2

TM 함수 현재 시제에 동사를 완료에 관해서는 stemCompletion()

x <- c("completed","complete","completion","teach","taught") 
tm <- Corpus(VectorSource(x)) 
tm <- tm_map(tm, stemDocument) 
inspect(tm) 
dictCorpus <- tm 
tm <- tm_map(tm, stemDocument) 
tm <- tm_map(tm, stripWhitespace, mc.cores=cores) 

tm<-tm_map(tm, stemCompletion,dictionary=dictCorpus) 

을 가지고, 그게 TM 가능합니다 모르겠습니다. 어쩌면 RWeka, word2vec 또는 qdap에 방법이 있지만 어쩌면 확실하지 않습니다.

빠르고 더러운 해결책은 type = shortest에 넣을 수 있습니다. 일반적으로 현재 시제 단어는 과거 시제 및 gerunds보다 짧을 것이라고 생각합니다.