ppt, pptx, doc, docx 파일을 열어서 라이브러리에서 모든 개체를 추출 할 수있는 라이브러리를 찾고 있습니다.ppt, pptx, doc, docx 파일에서 개체를 구문 분석하고 추출하는 라이브러리를 찾고
예를 들어 ppt에서 이미지, 텍스트, 표 도형 등과 같은 모든 객체 속성을 추출 할 수 있습니다. 그런 다음 객체 위치/크기 및 글꼴 크기/색상/굵은 글꼴 등의 형식을 제공합니다. 각 이미지를 jpg 파일로 저장합니다. 라이브러리는 전체 슬라이드의 스냅 샷을 찍을 수 있어야합니다.
이 작업을 수행하기 위해 aspose을 시도했지만이 정보를 얻는 데 정확하지 않았습니다. 이미지가 정확하지 않으므로 모든 속성과 내보내기를 추출하지 않습니다. 거기에 오픈 오피스 라이브러리를 사용하는 것에 대한 아이디어가 있습니까?
Java 또는 C++ 라이브러리를 사용할 수 있습니다.
도와 주셔서 감사합니다. 간단한 예제를 통해 ppt/pptx 파일에서 이미지를 추출 할 수 있습니다. 압축 된 이미지를 aspose에서받은 파일과 비교하여 사무실을 열어보기로 결정해야합니다. 미리 감사드립니다. – mmohab
Apache Tika를 완벽한 솔루션으로 사용할 수 있습니다. 좋은 라이브러리는 [RawText] (https://rawtext.ambar.cloud/)입니다. 이미지 위에 OCR을 할 수 있기 때문입니다. 그것은 무료가 아니며 REST API에서 작동합니다. – SochiX