R의 tm 패키지를 사용하여 일반 텍스트 문서의 코퍼스에서 문서를 줄이려고합니다. 내가 Corpus의 모든 문서에 SnowballStemmer 함수를 적용하면 각 문서의 마지막 단어 만 줄기.Snowball Stemmer는 마지막 단어 만 말합니다.
문서가 코퍼스로 읽히는 방식과 관련이 있다고 생각합니다. 몇 가지 간단한 예제와 함께이 문제를 설명하기 위해 :
이> vec<-c("running runner runs","happyness happies")
> stemDocument(vec)
[1] "running runner run" "happyness happi"
> vec2<-c("running","runner","runs","happyness","happies")
> stemDocument(vec2)
[1] "run" "runner" "run" "happy" "happi" <-
> corp<-Corpus(VectorSource(vec))
> corp<-tm_map(corp, stemDocument)
> inspect(corp)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
[[1]]
run runner run
[[2]]
happy happi
> corp2<-Corpus(DirSource(path),readerControl=list(reader=readPlain,language="en_US" , load=T))
> corp2<-tm_map(corp2, stemDocument)
> inspect(corp2)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1.txt`
running runner runs
$`2.txt`
happyness happies
스노우 보의 R 인터페이스에서 제외 하시겠습니까? 따라서 라이브러리 (Rstem)와 tm_map (corp, wordStem)을 시도해야합니다. –
의견을 주셔서 감사합니다. 나는 그것을 시도하고 결과는 동일했다. 문제를 좀 더 자세히 설명하기 위해 위의 더 좋은 예제를 포함 할 것입니다. – Christian