2017-03-28 6 views
3
으로 표시되지 않습니다.

Hadith corpus로 텍스트 분석 및 텍스트 마이닝을 계획하면서 아랍어로 R에서 작업하기 시작했습니다. 내 질문에 관련된 스레드를 읽었지 만 그럼에도 불구하고 여전히 여기에 실제 기본 (미안, 절대 초보자)을 얻을 수 없습니다.아랍어 텍스트가 R-

그래서, 입력 : textarabic.v < - 스캐닝 ("데이터/아랍어 text.txt"인코딩 = "UTF-8"무엇 = "문자"9 월은 = "\ n을")

그리고 나온 것은 textarabic.v입니다. 물론 기호 (그림)입니다. 이전에는 스레드로 읽었을 때 utf-8에 텍스트를 저장했지만 아랍어로는 아무것도 표시하지 않았습니다.

아랍어 R을 입력 할 수 있지만 스캔하면 문자가 기호로 표시됩니다.

enter image description here

또한 읽고 아랍어 텍스트 기능을하는 코드를 다른 사용자를하는 구현하기 위해 노력하지만 난 방법과 장소를 구현하는 방법을 모르겠어요. R, tm 및 NLP 패키지에 추가되었습니다.

다음에 나에게 무엇을 제안합니까? 미리 감사드립니다.

+0

스택 오버플로에 오신 것을 환영합니다! [좋은 질문을하는 법] (http://stackoverflow.com/help/how-to-ask) 및 [재현 가능한 예] (http://stackoverflow.com/questions/)에 대한 정보를 읽어보십시오. 5963269). 이렇게하면 다른 사람들이 당신을 도울 수있게됩니다. – zx8754

+1

당신이 Windows에 있다고 가정 할 수 있습니까? 그렇다면 인코딩에 대한 끔찍한 경험을했습니다. -nix OSes는 꽤 잘 처리되지만 (UTF8). –

+0

현재 OS X을 사용 중입니다. – Esc6

답변

0

OSX에 관한 귀하의 의견을보기 전에 반드시 Windows에서 R을 사용해야한다는 답변을 게시했습니다. OSX에서는 그 상황이 그렇게 심각하지 않습니다. 문제는 당신이 R의 버전을 너무 오래 사용하고 있다는 것입니다. 제가 기억한다면, 3.2 이전의 것은 유니 코드를 올바르게 처리하지 못합니다. https://cran.r-project.org/bin/macosx/에서 3.3.3을 설치하고 필요한 경우 필요한 패키지를 다시 설치하십시오. 그럼 괜찮을거야. بالتوفيق!