AWS 인스턴스의 Windows 서버 2003에서 Ephesoft Community Edition을 사용하고 있습니다. ephesoft에서 특정 tiff 문서를 읽는 데 문제가 있습니다. 나는 약 100 개의 서로 다른 티프 문서를 가지고 있으며 그 중 약 70 %가 작동합니다. 이 tiff 문서는 원래 PDF 파일이었는데, 가장 최신 버전의 고스트 스크립트를 사용하여 변환하고 ephesoft의 imagemagick을 사용하여 정리했습니다. 우리는 ImageMagick이와PDF에서 변환 된 tiff 문서를 학습 할 때 Ephesoft 오류가 발생했습니다.
-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH
우리는 다음과 같은 명령을하고있는 고스트와
를 다음 명령을 사용하여-compress 그룹 4
작동하지 않는 tiff 파일 중 하나를 학습하면 로그 파일에 다음 오류가 표시됩니다.
그리고 이것은 우리가
Drop Box Link to Tiff Document
내용 ephesoft이하려고하는 티파니 문서 중 하나입니다 내가 고스트 스크립트, ImageMagick이 또는 해결하기 위해 다른 소프트웨어와 함께 할 수있는 뭔가가 있나요 이; 또는 어떤 방법으로 ephesoft를 수정해야합니까?
'최신 버전의 Ghostscript'는 무엇을 의미합니까? 최신 릴리스 인 개발 지사의 HEAD? 패키지 관리자가 최신 패키지 버전으로 가지고있는 것은 무엇입니까? ** 실제 버전을 언급하는 것이 ** 더 ** 더 좋을 것입니다. 나는 TIFF 파일에 어떤 문제라도 즉시 볼 수 없다. 아마도 가장 좋은 방법은 누군가가 'ephesoft'가 이미지에 대해 싫어하는 것을 말하게하는 것이다. – KenS
Ghostscript 9.15를 사용하고 있습니다. 혼란에 대해 유감스럽게 생각하지만, http://ghostscript.com/download/의 최신 안정 버전을 의미했습니다. 나는 ephesoft가 TIFF에 대해 싫어하는 점과이를 해결하는 방법을 알아 내서 TIFF 문서를 수정하거나 Ephesoft를 수정할 수있는 방법에 관심이 있습니다. 이것을 알아내는 방법에 대한 조언이 있습니까? –
몇 가지 추가 연구를 한 후 Tesseract가 단어> 텍사스에> 문자를 넣는 것처럼 보입니다. Ephesoft가 html 파일을 섭취하려고 시도 할 때 hocr 파일에>와 같은 문자를 설명하지 않는 것으로 보입니다. Tesseract에서 < > 또는 다른 xml 파일을 제거하는 방법을 알고 있습니까? –