2017-11-07 10 views
0

나는 몇 개의 pdf 파일을 가지고 있는데, 나는 텍스트를 추출하고 싶다. 나는 pyPDF2, pdfminer와 같은 모든 라이브러리를 사용했다. tesseract와 imagemagick도 진행했습니다. Imagemagick은 변환 된 jpg 형식의 pdf 페이지 대부분을 검은 색으로 표시합니다.이 형식은 tesseract에서 읽을 수 없습니다.파이썬 - PDF 읽기

텍스트/단락을 추출하는 동안 라이브러리가 전체 텍스트를 추출하지 못하는 것이 문제입니다. 예를 들어 일부 pdf 파일에서는 전체 텍스트가 추출되는 반면 다른 pdf 파일에서는 전체 단락 중 몇 줄만 추출됩니다.

파이썬으로 텍스트를 추출하는 다른 방법이 있다면 알고 싶습니다. 그러나 온라인 원본에서 jpg로 pdf를 변환 한 다음 변환 된 jpg 파일에서 tesseract를 사용하면 모든 텍스트를 추출 할 수있었습니다. 그러나, 그 방법은 실제로 가능하지 않습니다.

+0

어떤 버전을 확인하십시오? 귀하의 PDF에 대한 RGB 색상 공간이 아닌 CMYK였습니까? 밀도를 충분히 크게 했습니까? 알파 채널을 해제 했습니까? 'convert -density 300 -colorspace RGB image.pdf -alpha off image.jpg'를 시도하십시오. 그러나 JPG는 손실 압축이므로 PNG 또는 TIF 출력을 만드는 것이 좋습니다. – fmw42

답변

0

이미지를 평평하게 만들고 배경을 흰색으로 지정하고 명령 줄 설명서에 지정된 다른 프로토콜을 사용하십시오. 가지고 놀 수있는 옵션이 많습니다. 나는 당신의 상황에 따라 다를 수 있지만 좋은 결과를 발견했습니다.

OCR에서 충분히 만족 스러울 때까지 출력물을 확인하고 싶을 것입니다.

magick -colorspace gray filename.ppm 
-density 300 -depth 8 -flatten -auto-orient -auto-level -rotate -90> output.tif 

자세한 도움말 ImageMagick과의 here