크롤링 된 HTML 웹 페이지에서 텍스트를 추출하고 싶습니다. 좋은 오픈 소스 Boilerpipe 라이브러리를 사용하고 있습니다. 그러나 Boilerpipe에서는 원시 텍스트 만 가져옵니다. 원본 텍스트 외에도 모든 CSS 스타일 정보가 인라인 된 원본 소스 서식 정보로 텍스트를 캡처해야합니다.인라인 CSS로 HTML 기사 텍스트 추출
보일러 파이프 또는 다른 Java 라이브러리 (가능하면 오픈 소스)를 사용하여이를 수행 할 수있는 방법이 있습니까?
다운 그레이드 이유? 물론, Google에서 정보를 검색했습니다. 모든 CSS를 인라인하는 기능이있는 여리고 html 파서를 발견했습니다. 그러나 보일러 파이프를 고수하고 싶습니다. 이 기능을 가진 새로운 추출기를 개발하는 howto에 대한 지침조차도 도움이 될 것입니다. :) – cosmos