2017-12-27 30 views
0

결과. 결과는 현저하게 다릅니다 (pyesseract는 tesseract 명령 행보다 더 나은 방법을 수행함). 이유를 이해할 수 없습니다. 나는 매개 변수의 기본값을보고 tesseract 명령 줄 (psm과 같은)에서 매개 변수 값 중 일부를 변경하려고 시도했지만 pytesseract와 동일한 결과를 얻을 수 없습니다. pytesseract에서 적절한 문서가 없기 때문에 매개 변수의 기본 값이 사용되는 것을 파악할 수 없습니다.pytesseract 결과는 내가 우분투에 모두 pytesseract 및 정팔 포체 명령 줄을 사용하여 텍스트로 스캔 한 페이지를 변환하려고

여기 pytesseract의 소스 코드를 보면 내 pytesseract 코드 print(pytesseract.image_to_string(Image.open('test.tiff'))

답변

0

, 이미지가 항상 .BMP 파일로 변환되어 보인다. Tesseract를 사용하여 명령 줄에서 .bmp 파일 및 psm을 6으로 사용하면 pytesseract와 동일한 결과를 얻습니다. 또한 tesseract는 압축되지 않은 bmp 파일에서만 작동합니다. ImageMagick이이 .bmp로하는 .PDF로 변환하는 데 사용되는 경우 따라서, 다음 작동합니다

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt