JTidy로 XHTML DOM 구문 분석을하려고하는데, 직관적이지 않은 것으로 보입니다. 내가 그의 인스턴스를 얻어야한다 어디JTidy Node.findBody() - 사용 방법?
Node Tidy.parse(Reader, Writer)
그리고 얻을 수있는 < 몸/그 노드의 >는, 나는 가정, 내가
Node Node.findBody(TagTable)
를 사용한다 : 특히, HTML 구문 분석하는 방법있다 TagTable? (생성자는 보호되어 있으며 생성 할 팩토리를 찾지 못했습니다.)
JTidy 8.0-SNAPSHOT을 사용합니다.
tidy = new Tidy(); tidy.setXHTML(true); tidy.setPrintBodyOnly(true);
그리고 사용 : 나는 몸을 추출하는 많은 간단한 방법이있다 발견
Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);