2017-01-12 4 views
0

, 나는 "连锁店 购买 的"같은 사람들의 의견과 열을 가지고있다. 그리고 저는 JiebaR 덕분에 다른 두 개의 기둥을 만들었습니다. 이것들은 세그먼트 화 된 메시지 ("连锁店", "购买", "的")와이 메시지들 ("连锁店", "购买")의 키워드들을 보유합니다. 키워드 선택은 "불"(중국어로 "아니오")를 제거하므로 단어에서 다시 가져와 키워드에 추가하려고합니다. 간단 하죠?중국어 문자 기능 R 스튜디오

깨끗한 코드를 얻으려면 필자는 모든 기능을 별도의 파일에 저장하고이를 내 주 파일로 제공합니다. 그리고 지금은 아주 이상한 일이 발생합니다 :이 기능은 주 파일에있을 때 작동하지만, 내가 소스 파일에있을 때는 작동하지 않습니다! (필자는 필자의 메인에서 "function"파일로 함수를 복사하여 붙여 넣었고 소스 (...) 라인을 실행했다 ...).

fetchingNeg <- function(df){ 
    for (i in 1:nrow(df)){ 
    if ("不" %in% unlist(df[i,]$words)){ 
     df[i,]$keywords <- list(append(unlist(df[i,]$keywords),"不")) 
    } 
    } 
    return(df) 
} 

답변

2

그래서 오류가 발생했습니다 : 인코딩! 내가 아는 문자 C가 "不"였지만 print ("不"== c)를했을 때 FALSE를 줄 것입니다 ... "이"UTF-8로 인코딩되지 않았습니다. 내 코드 작업을 내게 바꿔야 만했다.

fetchingNeg <- function(df){ 
     for (i in 1:nrow(df)){ 
      # "不" is "\u{4e0d}" in UTF-8 
      if ("\u{4e0d}" %in% unlist(df[i,]$words)){ 
      df[i,]$keywords <- list(append(unlist(df[i,]$keywords),"\u{4e0d}")) 
      } 
     } 
     return(df) 
    }