2011-12-01 2 views
1

HYPERLINK "target"레이블Apache POI 추출 HWPF 하이퍼 링크

어떻게하면 HWPF 문서에서 하이퍼 링크를 추출 할 수 있습니까? doc 파일에서 단락을 가져 와서 필요한 경우 올바른 스타일 (예 : 굵게, 기울임 체 등)을 추출 할 수는 있지만 단락에서 하이퍼 링크를 식별하고 추출하는 방법은 무엇입니까? 당신이 눈치 챘로

답변

0

을 .doc 형식은

하이퍼 링크는 특수 마커로, 하나의 CharacterRun 것입니다 ..., 방법의 간단한에 하이퍼 링크를 저장하지 않습니다. 일단 그것을 발견하면 따옴표를 기준으로 텍스트를 분할하면됩니다.

Apache Tika에서이 작업을 수행하는 좋은 예가 있는데, 완료된 것을 확인하려면 handleSpecialCharacterRuns 메소드가 WordExtractor임을 확인하십시오.

+1

하이퍼 링크는 필자의 경우 단일 CharacterRun이 아닙니다. 나는 그것을 기대했지만, 그렇지 않았습니다. 디버깅하는 동안 나는 1 하이퍼 링크가 1 대신 2 CharacterRuns로 나뉘는 것을 보았다 : HYPERLINK "target"그리고 다음 실행은 나에게 "label"을 주었다. 나는 이것을 더 깊이 조사 할 것이다. 링크를 가져 주셔서 감사합니다. – Diyarbakir

+0

POI 버그 일 수 있습니다. POI 3.8 베타 4 (또는 최신 야간 빌드)를 사용하고 있는지 확인하십시오. – Gagravarr