트위터에서 센티멘트 분석을하고있는 중이지만 내 트윗은 스페인어로되어 있으므로 단어를 분류하기 위해 tidytext를 사용할 수 없습니다. 스페인어에 비슷한 패키지가 있는지 아는 사람 있습니까?스페인어의 tidytext R - 다른 대안?
감사합니다.
트위터에서 센티멘트 분석을하고있는 중이지만 내 트윗은 스페인어로되어 있으므로 단어를 분류하기 위해 tidytext를 사용할 수 없습니다. 스페인어에 비슷한 패키지가 있는지 아는 사람 있습니까?스페인어의 tidytext R - 다른 대안?
감사합니다.
불행히도 영어 이외의 언어로 된 정서 사전에는 좋은 오픈 소스 옵션이 많이 없습니다. 저자의 다른 언어로 NRC lexicon을 요청할 수 있습니다. 그것은 Google 번역에 의해 번역됩니다 (물론 불확실성을 추가하지만 전반적으로 OK 임). 저자는 연구 목적으로는 제공하지만 상업적 용도로 사용한다고 주장합니다.
비영어권 텍스트 삽입과 동일한 문제가 발생합니다. Bnosac에서 개발 한 r 패키지 인 udpipe
을 발견했습니다. 언어에 구애받지 않는 '토큰 화', '품사 태깅', 'lemmatization', '형태 학적 특징 태그 지정'및 원시 텍스트의 '의존성 분석'을 제공하는 자연 언어 처리 툴킷입니다. 패키지에 정서표가 없다는 점에 유의하십시오. 다른 곳에서 찾아야 할 것들.
다양한 영어 이외의 언어를 지원합니다.
P.S.에, 자신의 blog에 더 찾을 수 있습니다 나는 그들과 아무런 관계가 없다.
5 월 최상의 옵션은 아니지만'translateR' 패키지를 사용하여 영어로 번역 한 다음 tidytext로 분류하는 것이 좋습니다. 그러나 당신이 작은 기계 학습 알고리즘을 제어하는 경우. 텍스트 클러스터링에는 몇 가지 알고리즘이 있습니다. –