2016-12-24 4 views
1

한국어 문장을 다루는 프로그램을 만들고 있는데, 나는 그 글자로 음절을 분류하거나 차단하는 방법이 필요하다. 한글을 모르는 사람들을 위해 음절은 2 ~ 4 글자 (자모)로 구성되어 수천 가지 조합을 만듭니다. 제가하고 싶은 것은 그 음절을 그것을 구성하는 글자로 나누는 것입니다.한글 음절을 글자로 자르다 (자모)

유니 코드 값을 해당 범위의 관련 문자, 즉 x 문자로 시작하는 음절을 y 범위로 비교하여 첫 번째 문자를 가져올 수있었습니다. 그러나 나는 편지의 나머지 부분을 찾는 것을 놓치고있다. http://jrgraphix.net/r/Unicode/AC00-D7AF

답변

3

한글 음절 분해 (예를 들어 + 가 +)를 java.text.Normalizer 클래스를 통해 자바로 수행됩니다 :

String s = Normalizer.normalize("\uD4DB", Normalizer.Form.NFD); 

이 한글 음절의 유니 코드 값을 포함하는 테이블 한글 분해 알고리즘은 Section 3.12 of the Unicode Standard (from page 142)에도 나와 있습니다. 또한 정규화가 다른 한글이 아닌 다른 문자에도 영향을 미치기 때문에 유니 코드 정규화의 일반적인 원칙과 형식을 UAX #15에 익히는 것이 좋습니다.

+0

정말 고마워요.이게 내가 찾고 있던 것입니다. 나는 음절을 분해하기위한 자신 만의 알고리즘을 만들어야한다고 걱정했다. – Ninjaman494