나는 몇 개의 pdf 파일을 가지고 있는데, 나는 텍스트를 추출하고 싶다. 나는 pyPDF2, pdfminer와 같은 모든 라이브러리를 사용했다. tesseract와 imagemagick도 진행했습니다. Imagemagick은 변환 된 jpg 형식의 pdf 페이지 대부분을 검은 색으로 표시합니다.이 형식은 tesseract에서 읽을 수 없습니다.파이썬 - PDF 읽기
텍스트/단락을 추출하는 동안 라이브러리가 전체 텍스트를 추출하지 못하는 것이 문제입니다. 예를 들어 일부 pdf 파일에서는 전체 텍스트가 추출되는 반면 다른 pdf 파일에서는 전체 단락 중 몇 줄만 추출됩니다.
파이썬으로 텍스트를 추출하는 다른 방법이 있다면 알고 싶습니다. 그러나 온라인 원본에서 jpg로 pdf를 변환 한 다음 변환 된 jpg 파일에서 tesseract를 사용하면 모든 텍스트를 추출 할 수있었습니다. 그러나, 그 방법은 실제로 가능하지 않습니다.
어떤 버전을 확인하십시오? 귀하의 PDF에 대한 RGB 색상 공간이 아닌 CMYK였습니까? 밀도를 충분히 크게 했습니까? 알파 채널을 해제 했습니까? 'convert -density 300 -colorspace RGB image.pdf -alpha off image.jpg'를 시도하십시오. 그러나 JPG는 손실 압축이므로 PNG 또는 TIF 출력을 만드는 것이 좋습니다. – fmw42