2016-09-15 9 views
0

Docx를 으로 변환하려하지만 Docx에 이미지, WMF 형식의 MathType 방정식 및 $ 구분 기호가있는 tex 형식의 단어 방정식이 포함될 수 있습니다.ruby를 사용하여 docx 단어 방정식에서 word 방정식으로 변환

내가 pandoc 및 LibreOffice와 사용 HTML로 DOCX 변환 시도 : pandoc를 사용

문제 : 나는 document.xml를 읽고 gimp's convert 명령 행 도구를 사용하여 PNG로 WMF로 변환했다, 그래서 Pandoc은의 MathType 방정식을 건너 뜁니다.

이것은 방정식의 일부를 매우 읽을 수없는 형식으로 나타냅니다.

libreoffice를 사용할 때의 문제 : 실제로 전체 문서를 HTML로 변환하지만 변환 중에는 단어 방정식이 양쪽에서 잘립니다.

내가 원하는 것은 Docx를 Html로 변환 할 수있는 도구이며, 단어 방정식뿐만 아니라 MathType 방정식을 모두 tex 형식으로 변환합니다.

루비에서이 작업을 수행하고 싶지만 해결 방법이나 아이디어가 가장 좋습니다.

감사합니다.

답변

1

pandoc docx reader supports only OMML 수학, 오래된 MathType이 아닙니다.

pandoc AST (일반 텍스트로 표시됨)에 수학을 찾아 pandoc math elements으로 변환하여 pandoc LaTeX 작성기가 자동으로 TeX 수학으로 변환하는 pandoc filter을 쓸 수 있습니다.