2014-12-23 5 views
0

제목, HTML 본문 (일반 텍스트), HTML 페이지에서 이미지 URL을 추출하고 싶습니다. Apache Tika 서버를 사용하여 가능합니다.Apache tika 파서로 HTML에서 제목, 본문 및 이미지를 추출하는 방법

당신은 당신에게 사용할 수있는 몇 가지 선택을 한 단계로, 당신은 몸 일반 텍스트 및 모든 img 태그의 src URL을 모두 얻을 수있는대로 - 아파치 티카 서버를 사용하여

+0

Tika - 앱을 어떻게 사용하고 있습니까? 섬기는 사람? 자바 외관? 파서가 직접? html로 어떤 본문을 원하는가요? 일반 텍스트? 이미지로 무엇을하고 싶습니까? 그들이 어디에 있는지 알아? – Gagravarr

+0

전 신체 일반 텍스트 및 이미지 URL을 가져오고 싶습니다. 이미지를 다운로드하거나 저장할 필요가 없습니다. – bertyuan

답변

1

:

  1. 먼저 Tika 서버에 파일의 일반 텍스트를 요청하십시오. 그런 다음 두 번째로 클라이언트 쪽 img 태그
  2. 에 대한 정규화 된 HTML + 필터를 요청하십시오. Tika 서버에 정규화 된 HTML 양식을 요청한 다음 img 태그 URL과 일반 텍스트를 로컬 xhtml로 가져옵니다 파서
  3. 서버를 사용하지 않고 사용자 정의 컨텐츠 처리기로 Tika Java 코드를 직접 호출하십시오.

# 3 옵션의 경우 대부분 fetch the body of the xhtml document example을 따르지만 대부분의 태그 정보는 버려야합니다. 태그로 img 태그 만 신경 쓰면 나머지는 내부 문자로 전달됩니다.