2017-11-10 15 views
2

원래 쉼표로 구분 된 파일에서 가져온 일본어 문자열을 Mac OSX에서 폴더에서 추출한 파일 이름 목록과 일치 시키려고했습니다.일본의 "dakuten"문자로 서로 게이트 쌍을 통합 R

한 벡터에서 요소 a이다

> a 
[1] "立ち上げる.mp3" 

파일명에서 해당 요소 b

> b 
[1] "立ち上げる.mp3" 

문제이다 그들은 R 서로 논리적으로 동일하지 않은 것을 :

> a == b 
[1] FALSE 

나는 이것이 문제는 일본의 "다쿠 텐 (dakuten)"문자의 대리 쌍 (즉, 추가 점을 추가하여 け에서 확장 된 げ 문자). 그래서 그들은 서로 다른 사실 위치 :

> iconv(a, "latin1") 
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0092ã\u0082\u008b.mp3" 
> iconv(b, "latin1") 
[1] "ç«\u008bã\u0081¡ä¸\u008aã\u0081\u0091ã\u0082\u0099ã\u0082\u008b.mp3" 

> nchar(a) 
[1] 9 
> nchar(b) 
[1] 10 

가 어떻게 같은 일본어 문자의 두 가지 버전으로 변환 할 그들이 유효하게 일치 할 수 있도록 (즉, 그들이 동일해야합니다)를 사용하여 R?

답변

1

ICU 라이브러리 RUnicode을 호출하는 오픈 소스 브리지 라이브러리가 있습니다. Mac OS X의 경우 검색 키를 NFD (Mac OS X 스타일)로 정규화 할 수 있습니다.

전폭 및 반자말 가타카나와 같은 다른 일본어 문자는 사용자의 목적에 맞게 표준화됩니다.