2016-07-18 3 views
0

우리는 .docx 및 나중에 다른 잠재적 인 파일 형식을 일종의 표준 XML로 변환하려고합니다. 이 XML은 XSLT를 통해 우리가 선택한 XML (xsd)로 매핑됩니다.DocX 및 기타 FileFormats에서 특정 XSD로 문서 변환을 처리하는 방법?

변환이 성공하려면 가능한 한 많은 정보 요소를 문서 내에 보관해야합니다. 가장 중요한 요소는 문서 내의 구조, 내용, 표, 목록 및 그림 (이미지 등)입니다.

우리는이 작업이 복잡하다는 것을 알았고 어떤 종류의 문서를 지원할 수 있는지에 심각한 제한이 있음을 깨달았습니다.

서로 다른 표준이 있으므로 각각에 대해 변환기를 구현하는 데 시간이 많이 걸릴 것입니다.

누구나 XML 문서 변환에 대한 경험이 있습니까? 계속하는 방법에 대한 정보?

답변

1

DOCX에서 임의의 XML 형식으로 변환하는 것이 큰 일이 될 수 있다는 사실에 틀림 없습니다. 우리가 원하는 무엇

는 XSLT를 통해 지정된 XSD와 XML로 변환 할 수있는 표준 XML로 .DOCX 및 기타 잠재적 인 파일 형식을 변환하는 것입니다.

DOCX 파일은 이미 Office Open XML (OOXML)이라는 표준 XML 형식으로되어 있습니다. 소개는 Office Open XML Overview을 참조하십시오.

우리는 이것이 복잡한 영역이라는 것을 알고 있습니다. 지원할 문서의 종류는 이며 대부분 중요한 것은 구조와 내용을 유지할 수 있다는 것입니다.

OOXML은 사용자가 찾고자하는 "구조 및 내용"에 따라 서식을 지정하기 때문에 매우 어려운 분류 문제를 해결할 수 있습니다. 문제는 정확한 목표 형식을 아는 것만으로는 충분하지 않습니다. 일반적인 경우에 응답하는 것은 실현 가능하지 않습니다. 도움이 될 수있는 한 가지 기법은 소스 문서 내에서 대상 형식의 더 구조화 된 부분을 식별하기 위해 키워드, 표제 등의 패턴 기반 일치입니다.