2012-06-10 3 views
1

크롤링 된 HTML 웹 페이지에서 텍스트를 추출하고 싶습니다. 좋은 오픈 소스 Boilerpipe 라이브러리를 사용하고 있습니다. 그러나 Boilerpipe에서는 원시 텍스트 만 가져옵니다. 원본 텍스트 외에도 모든 CSS 스타일 정보가 인라인 된 원본 소스 서식 정보로 텍스트를 캡처해야합니다.인라인 CSS로 HTML 기사 텍스트 추출

보일러 파이프 또는 다른 Java 라이브러리 (가능하면 오픈 소스)를 사용하여이를 수행 할 수있는 방법이 있습니까?

+0

다운 그레이드 이유? 물론, Google에서 정보를 검색했습니다. 모든 CSS를 인라인하는 기능이있는 여리고 html 파서를 발견했습니다. 그러나 보일러 파이프를 고수하고 싶습니다. 이 기능을 가진 새로운 추출기를 개발하는 howto에 대한 지침조차도 도움이 될 것입니다. :) – cosmos

답변

1

내가 처음으로 보일러 파이프를 사용한 적이 없다는 말로 시작해야합니다 ... 아니면 지금까지 들었습니다.

웹 사이트와 javadocs를 보면 스타일을 사용하여 텍스트를 추출 할 수 없다고 말하고 싶습니다. 기본적인 개념적 문제는 그 스타일을 표현할 수있는/표현할 수있는 방법입니다. 예를 들어, BoilerpipeExtractor 인터페이스에는 4 getText 메쏘드가 있으며, 각 메소드는 추출 된 텍스트를 String으로 반환합니다. String에서 스타일을 어떻게 표현 하시겠습니까? 당신은 ...

  • 마크 업의 종류 및
  • 어떻게 당신이 방법을 반환 말한다 인터페이스의 설명과 함께이 화해 것 "텍스트를 마크 업의 어떤 종류를 포함해야하지만 것 "... 마크 업이있는 텍스트"가 아닙니다.

그래서 보일러 파이프를 사용하여 스타일을 지정하여 텍스트를 추출하는 것이 완전한 비 시동기라는 평가가 있습니다. 따라서 이미 확인한 다른 대안을 선택하십시오.