2009-05-20 4 views
1

저는 현재 OpenOffice 매크로와 pdf2text 프로그램을 조합하여 텍스트를 추출하고 있으며 PowerPoint 파일에서 텍스트를 가져 오는보다 쉽고 효율적인 방법을 찾고 싶습니다.PowerPoint (.ppt 또는 .pptx) 파일에서 텍스트를 추출 하시겠습니까?

나는 아파치 POI 라이브러리를 사용해 보았지만,보고있는 파일을 처리하려고 할 때 라이브러리 내에서 수많은 예외가 발생했으며, 특히 소스 코드를 살펴보기를 원하지 않는다. 도서관.

위의 라이브러리를 사용하지 않고도 쉽게이 작업을 수행 할 수 있습니까?

답변

1

MS Office가 있고 PPT를 RTF (서식있는 텍스트 형식)로 저장하면 프레젠테이션의 텍스트 만 포함됩니다. 그런 다음 RTF 파일을 이해하고 텍스트 (TXT) 파일로 저장하는 모든 편집기에서 파일을 열 수 있습니다.

오픈 오피스에서도 작동 할 것으로 예상됩니다.

API에 대해 이야기 했으므로이 방법이 도움이되지는 않지만 어쩌면 새로운 아이디어를 얻을 수 있습니다.

편집 ... 당신이 단계에서 변환을 수행하기 위해 여러 매크로를 사용하여 말 : 내가 호기심이있어 짧은 구글 검색

을했던이 난 사람으로 one of the www.openoffice.org pages

에 발견하는 내용입니다 이 스레드는 OO 문서에서 텍스트를 가져 오는 것이 단지 perl 스크립트로 구문 분석 될 수있는 압축 된 XML이기 때문에 어렵지 않다고 지적했습니다. 문제는 Microsoft Powerpoint 문서를 먼저 으로 압축하여 압축 XML 형식으로 만드는 것입니다.

필자는 File -> Wizards -> Document Convertor가 정확히 그런 것을 발견했습니다. 그냥 템플릿이 아닌 파워 포인트 문서를 변환하겠다고 말하면 은 소스 디렉토리를 가리키며 결과가 나올 곳을 지정하면 멀리 떨어져 있습니다.

그런 다음 unzip -p $ file.sxi content.xml |/[^>] >/\ n/g; s/+ //; s/\ n \ n/\ n/g; -w

텍스트를 추출하는 데는 효과가 있습니다.

죄송합니다. 오픈 오피스를 사용하지 않으셔도됩니다.

+0

RTF로 저장하면 작동하지 않습니다. 파일의 슬라이드 인덱스 만 저장하는 것처럼 보입니다. – ekkis

1

pptx 파일은 XML로 압축되기 때문에 비교적 쉽게 처리 할 수 ​​있습니다. 압축을 풀고 '압축 해제 된 파일'의 'ppt/slides'하위 디렉토리에있는 파일 내용에서 모든 xml 태그를 제거하면됩니다. 관련 텍스트의 대부분을 산출합니다.

ppt 파일은 완전히 다른 볼 게임이며 catdoc 패키지의 catppt는 거의 쓸모 없게 만드는 버퍼 오버 플로우의 영향을 받기 쉽기 때문에 프로세스가 더욱 고통 스럽습니다 (이것은 큰 비율의 ppt 파일).