영어 버전
을 진행하는 방법에 어떤 도움 당신은 오히려 간단한 Regex로 할 수있는 영어 버전. 나는 일부 사용자 지정 구분을 놓친하지만 한 수
public static int getWordCount(String str) {
return str.split("[\\s,;-]+").length;
}
정규식 설명 :
[
\\s Any whitespace character or
, A comma
; or a semi-colon
]
+ Followed by any patterns in the group any number of times
중국어 버전
를 들어 그룹 []
에서 하나를 발견하면
분할 중국어 버전, 당신은 어떤 separato 식별해야합니다 rs입니다. 중국어 구분 기호의 유니 코드 char 코드를 가져 와서 위의 정규식에 추가하면 원하는 결과를 얻을 수 있습니다.
이
System.out.println(getWordCount("This is a sentence"));// 4
System.out.println(getWordCount("This is a sentence")); // 4
System.out.println(getWordCount("This is a ,,sentence")); // 4
의 단편은 단어 사이에 세퍼레이터가 있습니까? –
아니요 구분 기호가 없습니다. 정확한 문자열을 복사했습니다. – jaibatrik
이 경우 나는 유니 코드 룬 문자가 문자열에 사용되는 기반 언어를 찾으려고합니다.그런 다음 해당 정보를 사용하여 문자열을 구문 분석하는 방법을 결정하십시오. –