2011-01-21 2 views
2

ppt, pptx, doc, docx 파일을 열어서 라이브러리에서 모든 개체를 추출 할 수있는 라이브러리를 찾고 있습니다.ppt, pptx, doc, docx 파일에서 개체를 구문 분석하고 추출하는 라이브러리를 찾고

예를 들어 ppt에서 이미지, 텍스트, 표 도형 등과 같은 모든 객체 속성을 추출 할 수 있습니다. 그런 다음 객체 위치/크기 및 글꼴 크기/색상/굵은 글꼴 등의 형식을 제공합니다. 각 이미지를 jpg 파일로 저장합니다. 라이브러리는 전체 슬라이드의 스냅 샷을 찍을 수 있어야합니다.

이 작업을 수행하기 위해 aspose을 시도했지만이 정보를 얻는 데 정확하지 않았습니다. 이미지가 정확하지 않으므로 모든 속성과 내보내기를 추출하지 않습니다. 거기에 오픈 오피스 라이브러리를 사용하는 것에 대한 아이디어가 있습니까?

Java 또는 C++ 라이브러리를 사용할 수 있습니다.

답변

1

우리는 openoffice Java API를 사용하여 ppt/pptx 파일에서 이미지를 추출했습니다. 나는 here의 문서를 사용했다. 나는 당신이 필요한 것을하기 위해 그 가이드의 정보를 사용할 수 있다고 확신합니다.

행운을 비네.

+0

도와 주셔서 감사합니다. 간단한 예제를 통해 ppt/pptx 파일에서 이미지를 추출 할 수 있습니다. 압축 된 이미지를 aspose에서받은 파일과 비교하여 사무실을 열어보기로 결정해야합니다. 미리 감사드립니다. – mmohab

+0

Apache Tika를 완벽한 솔루션으로 사용할 수 있습니다. 좋은 라이브러리는 [RawText] (https://rawtext.ambar.cloud/)입니다. 이미지 위에 OCR을 할 수 있기 때문입니다. 그것은 무료가 아니며 REST API에서 작동합니다. – SochiX

1

하나의 옵션은 apache poi 라이브러리입니다. 오픈 오피스 API보다 주변에 예제가 있고 주변에 많은 자료가있는 것 같습니다.