원하지 않는 텍스트가 포함 이 두 개의 텍스트를 분리하려면?Jsoup의 몸은()
0
은 가정하자 내가 같은 HTML 문서가
A
답변
0
:
jsoup 온라인 데모 테스트에이 옵션이 있습니다.
String html =
"This is not body<body>\r\n" +
"This is body\r\n" +
"</body>";
Document document = Jsoup.parse(html, "", Parser.xmlParser());
System.out.println(document.body().text());
은 This is body
을 반환합니다.
0
html 사양이 적기 때문에 나타나는 동작이 정확하며 브라우저는 웹 초창기부터 나쁜 마크 업을 지원하기 위해 최선을 다할 정도로 조심해야합니다.
XmlTreeBuilder을 사용하여 "문서에 HTML DOM 규칙을 적용하지 않고 XML을 구문 분석"할 수 있습니다. 당신은 XML이 아닌 HTML이 텍스트를 구문 분석을 시도 할 수 https://try.jsoup.org/~KHbtVb7vli8fKNGtd9jIl6TK6xA
제안 해 주셔서 감사합니다. –