2017-11-02 6 views
1

트위터에서 센티멘트 분석을하고있는 중이지만 내 트윗은 스페인어로되어 있으므로 단어를 분류하기 위해 tidytext를 사용할 수 없습니다. 스페인어에 비슷한 패키지가 있는지 아는 사람 있습니까?스페인어의 tidytext R - 다른 대안?

감사합니다.

+0

5 월 최상의 옵션은 아니지만'translateR' 패키지를 사용하여 영어로 번역 한 다음 tidytext로 분류하는 것이 좋습니다. 그러나 당신이 작은 기계 학습 알고리즘을 제어하는 ​​경우. 텍스트 클러스터링에는 몇 가지 알고리즘이 있습니다. –

답변

1

불행히도 영어 이외의 언어로 된 정서 사전에는 좋은 오픈 소스 옵션이 많이 없습니다. 저자의 다른 언어로 NRC lexicon을 요청할 수 있습니다. 그것은 Google 번역에 의해 번역됩니다 (물론 불확실성을 추가하지만 전반적으로 OK 임). 저자는 연구 목적으로는 제공하지만 상업적 용도로 사용한다고 주장합니다.

0

비영어권 텍스트 삽입과 동일한 문제가 발생합니다. Bnosac에서 개발 한 r 패키지 인 udpipe을 발견했습니다. 언어에 구애받지 않는 '토큰 화', '품사 태깅', 'lemmatization', '형태 학적 특징 태그 지정'및 원시 텍스트의 '의존성 분석'을 제공하는 자연 언어 처리 툴킷입니다. 패키지에 정서표가 없다는 점에 유의하십시오. 다른 곳에서 찾아야 할 것들.

다양한 영어 이외의 언어를 지원합니다.

당신은 udpipe의 웹 페이지 또는 github

P.S.에, 자신의 blog에 더 찾을 수 있습니다 나는 그들과 아무런 관계가 없다.