2017-10-14 5 views
1

MeCab의 일본어 사전 데이터를 UTF-8로 인코딩 한 경험이 있는지 묻고 싶습니다. 일본어로 단어 맵을 만들기 위해 MeCab이 설치되어 있고 R에 RMeCab 패키지가 설치되어 있지만 사전 데이터가 UTF-8로 인코딩되지 않았기 때문에 POS 태그가 작동하지 않는 것 같습니다.RMeCab/MeCab을 통해 UTF-8로 일본어 사전로드

library("RMeCab") 
library("wordcloud") 
setwd('C:\\Users\\sukyu\\Desktop\\JP') 
word <- RMeCabFreq("OLS_Japantext.txt") 
word <- subset(word,Info1=="名詞") 
type <- c("数","非自立","接尾") 
word <- subset(word,!Info2%in% type) 
word <- word[order(word$Freq,decreasing =T),] 
pal <- brewer.pal(8,"Spectral") 
par(family = "HiraKakuProN-W3") 
wordcloud(word$Term,word$Freq,min.freq = 1,colors=pal, 
     random.order = TRUE,scale = c(5,4)) 

답변

0

기본적으로 UTF8을 사용하지 않지만 MeCab에는 강제로 빌드 옵션이 있습니다. 다음과 같이 구축하십시오.

./configure --with-charset=utf8 --enable-utf8-only 

해결해야합니다.