1
텍스트 섹션을 추출해야하는 몇백 개의 PDF 파일이 있습니다. 많은 사람들에게 pdftotext은 잘 작동하지만 다른 사람들에게는 큰 텍스트 섹션이 누락됩니다. 내가 인코딩없이 Acrobat의 PDF를 열고 손으로 텍스트를 선택하고 이맥스에 붙여 넣기 한 후 파일을 볼 수/복사하는 경우,이 같은 물건을 얻을 :일반적인 방법이 실패 할 때 PDF 파일에서 텍스트 복구
Husband \364\200\200\272\364\200\201\213\364 etc.
가 어떻게 제대로 텍스트를 추출 할 수 있습니까?
필자는 Acrobat에서 텍스트로 저장하려고 시도했음을 언급해야합니다. 또한 복사하기 전에 Acrobat의 Document => OCR 기능을 적용 해 보았습니다.
오른쪽의 ** 관련 ** 항목에서 모든 링크를 읽었습니까? 문제의 규모와 일반적인 보편적 해결책의 부족을 얻으려면? 어쩌면 샘플을 게시하면 누군가가 귀하의 특별한 경우에 대한 해결책을 제안 할 수 있습니다. 그리고 OCR이 작동하려면 먼저 파일을 래스터 화해야합니다. – user2846289
감사합니다. @ VadimR은 도움이되는 제안입니다. – vortek