스페인어 텍스트와 함께 unnest_tokens를 사용하려고합니다. Unigrams에서는 잘 작동하지만 bigrams로는 특수 문자를 구분합니다.tidytext :: unnest_tokens는 스페인어 문자로 작동합니까?
코드는 Linux에서 잘 작동합니다. 로케일에 대한 정보를 추가했습니다.
library(tidytext)
library(dplyr)
df <- data_frame(
text = "César Moreira Nuñez"
)
# works ok:
df %>%
unnest_tokens(word, text)
# # A tibble: 3 x 1
# word
# <chr>
# 1 césar
# 2 moreira
# 3 nuñez
# breaks é and ñ
df %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)
# # A tibble: 2 x 1
# bigram
# <chr>
# 1 cã©sar moreira
# 2 moreira nuã±ez
> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United
States.1252;LC_MONETARY=English_United
States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"
당신이()'뿐만 아니라'Sys.getlocale의 출력을 게시 할 수 다음
text
열, 같은 것을 사용unnest_tokens
같은 결과는 당신이df
과 결과에 가입 부여합니다 얻으려면? 디버깅에 도움이됩니다. – BrodieG[Unicode 정규화] (https://en.wikipedia.org/wiki/Unicode_equivalence) 문제 일 가능성이 높지만이를 재현 할 수 없습니다. stringi에는 변환 함수가 있습니다. '? stringi :: stri_trans_nfc'을보십시오. – alistaire