Hadith corpus로 텍스트 분석 및 텍스트 마이닝을 계획하면서 아랍어로 R에서 작업하기 시작했습니다. 내 질문에 관련된 스레드를 읽었지 만 그럼에도 불구하고 여전히 여기에 실제 기본 (미안, 절대 초보자)을 얻을 수 없습니다.아랍어 텍스트가 R-
그래서, 입력 : textarabic.v < - 스캐닝 ("데이터/아랍어 text.txt"인코딩 = "UTF-8"무엇 = "문자"9 월은 = "\ n을")
그리고 나온 것은 textarabic.v
입니다. 물론 기호 (그림)입니다. 이전에는 스레드로 읽었을 때 utf-8에 텍스트를 저장했지만 아랍어로는 아무것도 표시하지 않았습니다.
아랍어 R을 입력 할 수 있지만 스캔하면 문자가 기호로 표시됩니다.
또한 읽고 아랍어 텍스트 기능을하는 코드를 다른 사용자를하는 구현하기 위해 노력하지만 난 방법과 장소를 구현하는 방법을 모르겠어요. R, tm 및 NLP 패키지에 추가되었습니다.
다음에 나에게 무엇을 제안합니까? 미리 감사드립니다.
스택 오버플로에 오신 것을 환영합니다! [좋은 질문을하는 법] (http://stackoverflow.com/help/how-to-ask) 및 [재현 가능한 예] (http://stackoverflow.com/questions/)에 대한 정보를 읽어보십시오. 5963269). 이렇게하면 다른 사람들이 당신을 도울 수있게됩니다. – zx8754
당신이 Windows에 있다고 가정 할 수 있습니까? 그렇다면 인코딩에 대한 끔찍한 경험을했습니다. -nix OSes는 꽤 잘 처리되지만 (UTF8). –
현재 OS X을 사용 중입니다. – Esc6