2010-02-15 1 views

답변

3

Google 검색 결과와 일치하면 OpenXML4J입니다. 이렇게하면 문제가 해결 될 수 있습니다. 나는 지역 사회의 누군가가 더 나은 통찰력을 갖게되기 전에 이것을 사용하지 않았다.

참고 : 이것은 중복되는 질문입니다. 이것에는 약간의 토론을 더한 해결책이 있습니다. Link to the question.

+1

Word 문서 형식과 다른 Excel 형식을 묻는다면 두 가지 질문을 모두 유지하는 것이 합리적입니까? 그것들은 하나의 큰 문서 형식 스펙의 두 부분 집합 일 수도 있습니다. 솔직히 모르겠습니다. –

+0

나는 각 질문이 사무실 2007 년 자바 API에 관하여 질문하고 있기 때문에 중복다는 것을 믿는다. 다른 질문 인 IMHO가 메일에 답변합니다. :) – XanderLynn

5

서식 지정 정보, 이미지 및 다른 모든 멋진 것들이 필요하지 않으면 작업이 훨씬 쉽습니다. 단지 5 ~ 10 줄의 코드만으로 충분합니다.

  1. DOCX를 zip 파일로 취급하십시오. 그것은 'document.xml'을 포함하는 파일 묶음으로 구성됩니다. ZipInputStream을 사용하고 그 파일 만 추출하십시오. (여러분이 좋아하는 zip 유틸리티를 사용하고 docx를 열고 직접보십시오!)
  2. SAX 파서를 사용하고 노드 본문/p/r/t 사이에서 내용을 읽습니다.

텍스트 만 인 경우에만 적용됩니다.

+0

안녕하세요 조셉은 짧은 코드를 여기 적어주세요. 나에게 대단한 도움이 될 것입니다 ... –

2

try apache poi - doc, docx, xls, xlsx, ppt, pptx를 처리 할 수 ​​있습니다.

다른 프로덕션 수준의 솔루션은 서버가없는 시나리오에서도 사용할 수있는 헤드리스 모드의 OpenOffice입니다.