'str'이라는 문자열이 있는데, RDS 파일을로드하지 못했습니다.ngram 패키지의 텍스트 인코딩 문제
이 문자열에는 R 스튜디오 콘솔에 잘 표시되는 프랑스어 액센트가 포함되어 있습니다. 그러나이 문자열에서 ngram 패키지를 사용하면 악센트 부호가있는 문자가 올바르게 표시되지 않습니다.
악센트 부호가있는 문자열을 R에 직접 정의하면 제대로 작동합니다 (아래 코드의 'str2'참조).
어떻게 해결할 수 있습니까? 예를 들어 원래 문자열에 새 인코딩을 강제로 적용 할 수 있습니다.
str # console displays "crédit hypothécaire en juillet"
ng <- ngram(str, n = 2,sep= " ")
get.phrasetable(ng)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
str2 <- "crédit hypothécaire en juillet"
ng2 <- ngram(str2, n = 2,sep= " ")
get.phrasetable(ng2)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
편집 :
하기 권장 링크 (handling special characters e.g. accents in R)은 중복 문제가 아닙니다, 그래서 검증 된 답변을 내 문제에 대한 해결책을 제공하지 않았다, 그러나, 몇 가지 단서를 제공
아래에 답을 보았는가
먼저 생각, STR를 사용하지 마십시오. –
가능한 [특수 문자 처리 예 : 액센트가 R] (http://stackoverflow.com/questions/9511281/handling-special-characters-eg-accents-in-r) –
@ErikSchutte 그것은 ngram 패키지의 모든 예제에서 사용되었으므로 일관성을 유지했습니다.) –