2013-07-27 6 views
1

저는 작업중인 PDF 텍스트 추출 프로젝트의 일부로 Python PDFTK를 사용하고 있습니다. 누구든지 을 더 잘 알고 있습니까 텍스트 추출 라이브러리를 사용할 수 있습니까?(Python) PDFtk의 다른 대안들?

저는 파이썬을 사용하고 있지만, 요즘은 가능합니다.

나는 또한 대안을 찾고 있는데, 기본적으로 동등하거나 그 이상으로 달릴 수있는 모든 것. 일부 PDF 파일 (암호화되지 않은 파일 등)은 PDFTK 추출기로 식별 할 수 없으며 찾고있는 진행 상황이 나타나지 않습니다.

감사합니다.

답변

4

시도 PDFMiner. 이것은 많은 기능을 지원하는 PDF 라이브러리입니다. 기본적으로 pdf2text.py이라는 도구가 있으며 여기에는 암호화 된 PDF 파일의 내용을 일반 텍스트 문서로 추출하는 예제가 있습니다. 페이지의 pdf2text.py 섹션을 참조하십시오.

또한 CJK 언어 (일부 종속성 설치에 따라)에 대한 지원을하고

또한 CJK 문자

+0

에 대한 지원은 당신이 뭔가를 잊지 않았다있다? 당신이 너무 일찍 들어가는 경우에 단지 궁금 해서요 : D – jdero

+1

죄송합니다 - 내 나쁜 ... 내 열쇠가 붙어있어 내가 최종 반응을 보지 못했던 것처럼 보입니다 :). 어쨌든, PDFMiner가 CJK 문자도 지원한다는 것을 알려주는 답변으로 업데이트되었습니다 :) –