Java에서 텍스트를 처리하기 위해 Word 문서를 읽는 중입니다. 필요한 모든 텍스트가 있습니다. 나는 아파치 POI에 대해 알고 있지만, 지금은 DOCX에 대한 지원을 포함하지 않는다.Java에서 Microsoft Word 문서를 일반 텍스트 (DOC, DOCX)로 읽으십시오.
5
A
답변
3
Google 검색 결과와 일치하면 OpenXML4J입니다. 이렇게하면 문제가 해결 될 수 있습니다. 나는 지역 사회의 누군가가 더 나은 통찰력을 갖게되기 전에 이것을 사용하지 않았다.
참고 : 이것은 중복되는 질문입니다. 이것에는 약간의 토론을 더한 해결책이 있습니다. Link to the question.
5
서식 지정 정보, 이미지 및 다른 모든 멋진 것들이 필요하지 않으면 작업이 훨씬 쉽습니다. 단지 5 ~ 10 줄의 코드만으로 충분합니다.
- DOCX를 zip 파일로 취급하십시오. 그것은 'document.xml'을 포함하는 파일 묶음으로 구성됩니다. ZipInputStream을 사용하고 그 파일 만 추출하십시오. (여러분이 좋아하는 zip 유틸리티를 사용하고 docx를 열고 직접보십시오!)
- SAX 파서를 사용하고 노드 본문/p/r/t 사이에서 내용을 읽습니다.
텍스트 만 인 경우에만 적용됩니다.
+0
안녕하세요 조셉은 짧은 코드를 여기 적어주세요. 나에게 대단한 도움이 될 것입니다 ... –
1
시도해 볼 수 있습니다. docx4j; http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
2
try apache poi - doc, docx, xls, xlsx, ppt, pptx를 처리 할 수 있습니다.
다른 프로덕션 수준의 솔루션은 서버가없는 시나리오에서도 사용할 수있는 헤드리스 모드의 OpenOffice입니다.
Word 문서 형식과 다른 Excel 형식을 묻는다면 두 가지 질문을 모두 유지하는 것이 합리적입니까? 그것들은 하나의 큰 문서 형식 스펙의 두 부분 집합 일 수도 있습니다. 솔직히 모르겠습니다. –
나는 각 질문이 사무실 2007 년 자바 API에 관하여 질문하고 있기 때문에 중복다는 것을 믿는다. 다른 질문 인 IMHO가 메일에 답변합니다. :) – XanderLynn