2015-01-24 6 views
0

AWS 인스턴스의 Windows 서버 2003에서 Ephesoft Community Edition을 사용하고 있습니다. ephesoft에서 특정 tiff 문서를 읽는 데 문제가 있습니다. 나는 약 100 개의 서로 다른 티프 문서를 가지고 있으며 그 중 약 70 %가 작동합니다. 이 tiff 문서는 원래 PDF 파일이었는데, 가장 최신 버전의 고스트 스크립트를 사용하여 변환하고 ephesoft의 imagemagick을 사용하여 정리했습니다. 우리는 ImageMagick이와PDF에서 변환 된 tiff 문서를 학습 할 때 Ephesoft 오류가 발생했습니다.

-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH

우리는 다음과 같은 명령을하고있는 고스트와

-compress 그룹 4

를 다음 명령을 사용하여

작동하지 않는 tiff 파일 중 하나를 학습하면 로그 파일에 다음 오류가 표시됩니다.

Drop Box Link to Stack Trace

그리고 이것은 우리가

Drop Box Link to Tiff Document

내용 ephesoft이하려고하는 티파니 문서 중 하나입니다 내가 고스트 스크립트, ImageMagick이 또는 해결하기 위해 다른 소프트웨어와 함께 할 수있는 뭔가가 있나요 이; 또는 어떤 방법으로 ephesoft를 수정해야합니까?

+0

'최신 버전의 Ghostscript'는 무엇을 의미합니까? 최신 릴리스 인 개발 지사의 HEAD? 패키지 관리자가 최신 패키지 버전으로 가지고있는 것은 무엇입니까? ** 실제 버전을 언급하는 것이 ** 더 ** 더 좋을 것입니다. 나는 TIFF 파일에 어떤 문제라도 즉시 볼 수 없다. 아마도 가장 좋은 방법은 누군가가 'ephesoft'가 이미지에 대해 싫어하는 것을 말하게하는 것이다. – KenS

+0

Ghostscript 9.15를 사용하고 있습니다. 혼란에 대해 유감스럽게 생각하지만, http://ghostscript.com/download/의 최신 안정 버전을 의미했습니다. 나는 ephesoft가 TIFF에 대해 싫어하는 점과이를 해결하는 방법을 알아 내서 TIFF 문서를 수정하거나 Ephesoft를 수정할 수있는 방법에 관심이 있습니다. 이것을 알아내는 방법에 대한 조언이 있습니까? –

+0

몇 가지 추가 연구를 한 후 Tesseract가 단어> 텍사스에> 문자를 넣는 것처럼 보입니다. Ephesoft가 html 파일을 섭취하려고 시도 할 때 hocr 파일에>와 같은 문자를 설명하지 않는 것으로 보입니다. Tesseract에서 < > 또는 다른 xml 파일을 제거하는 방법을 알고 있습니까? –

답변

1

더 많은 연구를 통해 해결책을 찾았습니다.

문제는 Ghostscript 또는 Imagmagick과 관련이 없습니다. 그것은 Tesseract와 HOCR 파일 생성과 관련이 있습니다. Tesseract가 hocr 파일을 만들 때 Te> 값으로 텍사스의 값을 해석합니다. Ephesoft의 커뮤니티 에디션은 그와 같은 특수한 XML 문자를 처리 할 수 ​​없으며 그 결과로 오류를 던질 것입니다.

해결 방법은 Tesseract가 포함하지 않거나 해결할 수 있도록 <> 기호를 블랙리스트에 올리는 Tesseract 속성을 설정하는 것이 었습니다. 내 PDF가 올바르게 작동하고있는 것처럼 보이며 처리 할 수 ​​있습니다.

+0

안녕하세요, 다음 오류가 발생합니다 [오류] [풀 2 스레드 1] [com.ephesoft.dcma.util.ProcessUtils] - 명령을 실행하는 동안 오류가 발생했습니다 : [tesseract,/opt/Ephesoft/SharedFolders/BC7/lucene-search-classification-sample/in/First_pirst/1.tiff,/opt/Ephesoft/SharedFolders/BC7/lucene-search-classification-sample/in_First_Page/1, -l, eng, -psm, 4 , + hocr.txt] :/opt/Ephesoft/Dependencies/tesseract-ocr java.io.IOException : "tesseract"프로그램을 실행할 수 없습니다 ("/ opt/Ephesoft/Dependencies/tesseract-ocr"디렉토리) : error = 2, 해당 파일 또는 디렉토리 없음 –