2011-01-15 3 views
0

cyberneko을 사용하여 html 문서를 정리하고 처리합니다.SAX 및 Cyberneko를 사용하여 XML 주석 처리 - DOM 순서로

원본 HTML 문서에서 발생하는 모든 설명을 처리 할 수 ​​있어야합니다. 나는과 같이 주석을 처리 할 수있는 cyberneko 색소폰 파서를 구성한

: 나는 DOM 이벤트입니다 같은 소비자를 사용

parser.setProperty("http://xml.org/sax/properties/lexical-handler", consumer); 

....

나는 의견의 각각에 대한 콜백을 얻을 :

@Override 
public void comment(char[] arg0, int arg1, int arg2) throws SAXException { 
    System.out.println("COMMENT::: "+new String(arg0, arg1, arg2)); 
} 

내가 가진 문제는 모든 의견은 DOM의 맥락에서, 첫번째을 처리하는 것입니다. 즉 전에 문서 헤드, 본문 등의 콜백을받습니다.

DOM에서 발생하는 주석 콜백이 발생합니다. 제가 실제로 할 노력하고있어하는 등 원래의 HTML의 IE에 대한 지침을 통과입니다 :

편집 그들은 모두 삭제됩니다 순간

<!--[if lte IE 6]><body class="news ie"><![endif]--> 

, 내가 그들을 포함해야 정리 된 HTML 문서에서.

답변

0

코드를 더 많이 보여 주면 분명히 알 수있는 간단한 설명이 있습니다.

그러나 cybernecko에 문제가있는 경우 TagSoup와 같은 다른 파서를 사용해 볼 수 있습니다.

+0

문제는 주석을 출력하지 않는 XSL에서 모든 것을 래핑하는 것이 었습니다. – Joel