좋은 밤을 작성 나는 현재 정규식 매칭을 기반으로 C#에서 인간의 언어에 대한 매우 간단한 어휘 analiser 일하고, 나는 현재 정규식을 명시 할의 문제에 직면하고있다 그 대상 언어의 모든 구두점 기호와 일치시킬 수 있으며 모든 종류의 공백과도 일치 할 수있는 또 다른 기호와 일치 할 수 있습니다. Stack Overflow 및 다른 사이트에서 여기를
java.util.Pattern의 설명서에 따르면 POSIX 문자 클래스 \p{Graph} (POSIX 표기법의 [:graph:])은 "보이는 문자 : [\p{Alnum}\p{Punct}]"과 일치합니다. 그러나 이는 ASCII 문자로만 제한됩니다. 일치하는 (보이는) 유니 코드 문자와 동일한 클래스 또는 표현식이 있습니까?
아래 정규 표현식을 사용하여 비 라틴 문자를 제거합니다. 결과적으로 342 자보다 큰 문자열을 사용하면 함수가 실패하고 모든 것이 중단되고 웹 사이트 연결이 재설정된다는 사실을 발견했습니다. 나는 구두점 문자와 일치하는 \ p {P} 유니 코드 문자 속성으로 설명했습니다. 문제가있는 곳을 정확히 아는 사람이 있습니까? preg_match('/^([\p{P}
유니 코드 문자열에서 완전히 구성된 문자 만 일치시키는 방법을 찾고 있습니다. [:print:]은이 문자 클래스를 포함하는 정규식 구현에서 로캘에 따라 다릅니다. 예를 들어 제어 문자가 아니기 때문에 일본어 문자 'あ'와 일치합니까? [:print:]은 항상 ASCII 코드 0x20에서 0x7E가됩니까? 제어 문자 이외의 다른 문자와 일치시키는 데 사용할
정규식을 변환하는 방법 \ w + ASCII 만 아니라 유니 코드로 전체 단어를 가르쳐 주시겠습니까? 내가 NET을 사용 또한 .NET에서 정규식을 사용하기위한 좋은 치트 시트있다 http://msdn.microsoft.com/en-us/library/yd1hzczs.aspx#ECMAScript 살펴해야
힌디어 (Devanagri) (UTF-16)로 작성된 파일을 검색하면 다음과 같은 문제가 발생합니다. 파일에는 다음이 포함 त्रास 첫 번째 문자가 'त्र'त + ् + र 이제 동안의 여러 코드 포인트입니다 ततत जुग नींद ना हा बु 주 'त'을 검색하면 첫 번째 숯의 त를 포함하여 4 개의 일치 항목을 얻습니다. 자바를 사용하고 있습니다