2017-05-21 4 views
0
은 가정하자 내가 같은 HTML 문서가

원하지 않는 텍스트가 포함 이 두 개의 텍스트를 분리하려면?Jsoup의 몸은()

답변

0

:

jsoup 온라인 데모 테스트에이 옵션이 있습니다.

String html = 
     "This is not body<body>\r\n" + 
     "This is body\r\n" + 
     "</body>"; 
Document document = Jsoup.parse(html, "", Parser.xmlParser()); 
System.out.println(document.body().text()); 

This is body을 반환합니다.

+0

제안 해 주셔서 감사합니다. –

0

html 사양이 적기 때문에 나타나는 동작이 정확하며 브라우저는 웹 초창기부터 나쁜 마크 업을 지원하기 위해 최선을 다할 정도로 조심해야합니다.

XmlTreeBuilder을 사용하여 "문서에 HTML DOM 규칙을 적용하지 않고 XML을 구문 분석"할 수 있습니다. 당신은 XML이 아닌 HTML이 텍스트를 구문 분석을 시도 할 수 https://try.jsoup.org/~KHbtVb7vli8fKNGtd9jIl6TK6xA