0xf2 0x85 문자가 포함 된 utf-8 문자열이 있습니다. Eclipse는 이것을 공백으로 취급한다. 어떤 응용 프로그램에서는 이것을 '...'으로 취급합니다.jdom 파서를 사용하여 utf8 0xc2 0x85 문자가 포함 된 문자열을 구문 분석 할 수 없습니다.
문자열이 xml이기 때문에 jdom 파서를 사용하고 있으므로 jdom 파서가 실패하고 다음 예외가 발생합니다.
org.jdom.input.JDOMParseException : 오류 1 행 : 프롤로그에서 내용을 사용할 수 없습니다. org.jdom.input.SAXBuilder.build에서 org.jdom.input.SAXBuilder.build (SAXBuilder.java:381) 에서 (SAXBuilder.java:764)
JDOM 파서하지 않는 이유에 대해 어떤 생각 이것을 공백으로 취급 할까? 파서가 XML의 유효성을 검사하도록하려면 어떻게해야합니까? XML 문자열의 다른 모든 요소는 괜찮아 보입니다.
0xc2 0x85는 유니 코드 문자 U + 0085 (다음 줄)의 utf-8입니다. http://www.fileformat.info/info/unicode/char/85/index.htm – user1101293
U + 85는 XML에서 유효하며 공백으로 사용되는 "다음 라인"(NEL) 제어 코드입니다. 그러나 거의 사용되지 않으며 HTML과 같은 다른 형식에서는 유효하지 않습니다. 이전 IBM 형식과의 호환성을 위해 포함되었습니다. 나는 그것을 사용하지 않는 것이 좋습니다. 또한 생략 부호에 대한 CP-1252 문자와 혼동되기 쉽습니다.이 값은 원래 값이 0x85이지만 유니 코드로 U + 2026으로 표시되어야합니다. 일부 소프트웨어 (예 : 브라우저)는 부적절하게 인코딩 된 CP-1252라고 가정하고 줄임표를 잘못 표시합니다 (예 : 브라우저). – thomasrutter