2009-08-26 2 views
1

doc/docx 문서를 의미 론적 HTML로 변환하고 싶습니다.doc/docx를 의미 론적 HTML로 변환

일부 희망/요구 사항 문서 헤더 < > H1, H2 < > 등이다

  1. 시맨틱 HTML되도록는 테이블 < > 테이블 등이다.

  2. 표제, 목록, 표 및 이미지를 처리하는 것이 가능해야합니다. 그래프와 수학 수식은 아주 좋습니다.

• doc/docx에서 html로 직접 변환 할 필요가 없으며 xml 또는 docbook과 같은 중간 형식을 사용할 수 있습니다.

• 프로그래밍 방식으로 많은 수의 문서를 사용해야합니다.

내가 지금까지 발견 한 해결책에 가장 가까운 것은 http://holloway.co.nz/docvert/index.html이지만 불행히도 많은 버그, 작은 사용자 기반이 있으며 많은 문서를 처리 할 수 ​​없습니다. 개념 증명의 더 많은 것.

답변

1

Word 문서를 XML로 변환 할 수있는 upCast이라는 도구가 있습니다.

+0

업 캐스팅이 올바른 방향에 변환합니다. 나는 아직도 찾고있어, 그래서 더 많은 조언을 부탁드립니다. 그러나 누군가에게 "대답"을 수여하고 이것을 선택했습니다. – sandstrom

1

나는 이미지, 그래프 및 수학 공식을 제외하고, 나열한 요구 사항을 구현하는 유틸리티를 작성했습니다. 베타 품질입니다 (예 : 내 컴퓨터에서 작동). 나는 그것을 출판했다 http://www.modeltext.com/word

2

"문서의 헤더는" 나는 이것이 불가능하다고 생각한다. MS Word는 용지에 인쇄 된 텍스트처럼 <p> 의 다른 스타일로 결과를 기록하므로 원본 정보는 기록되지 않습니다.

기타 다른 방법으로 접근 할 수 있습니다. 두 가지 상용 툴이이 할 수있는이있어 (그 무료 도구 나 온라인 도구를 믿지 않는다, 그들은 실제 작업을하지 않습니다.) Zapadoo 에 의해

1 워드 클리너 www.zapadoo.com
wonder Studio의 Word 용 HTML 클리너 www.htmlcleaner.com

저는 작년에 발표 한 두 번째 애호가를 선호합니다. 둘 다 시도해 볼 수 있습니다.

1

docx4j (docx 전용, 아니라 doc) 깨끗한 HTML 출력을 작성합니다. < p class = "h1"> 대신 < h1>을 원한다면 약간 변경해야하지만 오픈 소스에서 그렇게 할 수 있습니다.