우수한 tidytext
패키지를 사용하여 몇 가지 단락으로 문장을 토큰 화합니다. 예를 들어, 다음 단락을 갖고 싶습니다.약어를 무시하고 unnest_tokens()를 사용하여 문장의 토큰 화하기
"나는 다르 씨가 결함이 없다는 것을 완벽하게 확신합니다. 그는 자기 자신을 변장없이 소유하고 있습니다."
두 문장
- 로를 토큰 화는 "나는 미스터 다아시가 결함이 없다고 그것으로 완벽하게 확신합니다."
- "그는 변장없이 직접 소유하고 있습니다."
그러나 tidytext
의 기본 문장 토크 나이저를 사용할 때 나는 세 문장을 얻습니다.
코드
df <- data_frame(Example_Text = c("I am perfectly convinced by it that Mr. Darcy has no defect. He owns it himself without disguise."))
unnest_tokens(df, input = "Example_Text", output = "Sentence", token = "sentences")
문장을 토큰 화하는 tidytext
를 사용하는 간단한 방법은 무엇 결과
# A tibble: 3 x 1
Sentence
<chr>
1 i am perfectly convinced by it that mr.
2 darcy has no defect.
3 he owns it himself without disguise.
하지만 예 : "씨"와 같은 일반적인 약어 문제로 실행하지 않고 또는 "Dr." 문장 끝으로 해석 되는가?
다음은 중대한 답변입니다. 간단히하기 위해 tidytext의 기본 토큰 화는 tokenizers 패키지에서 제공되며 문장 토큰 화가 여기 구현 된 방법을 볼 수 있습니다. https://github.com/ropensci/tokenizers –