[Ubuntu Linux 14.04 및 16.04에서] 문자가 이상한 기호로 매핑되는 PDF 문서를 만드는 컵 -PDF로 인해 문제가 있습니다. 나는 파이썬이 나에게 문자열 타입을 알려주고 있다고해도 일종의 유니 코드라고 생각한다. type(object)
파이썬 반환 "string"
읽을 수있는 텍스트로 스크램블 된 PDF 문자를 다시 매핑하십시오
나는 evince/Firefox 또는 Python PDFminer 모듈을 통해 마우스 복사 붙여 넣기를 통해 PDF의 텍스트를 가져 오는 경우 차이가 없습니다. 따라서 사실 PDF는 PDF 문서 자체에서 올바르게 렌더링되는 텍스트 정보를 손상 시켰습니다. 나는 그것을 알지 못했다. 그러나 PDF 문서의 텍스트와 텍스트 그래픽은 매우 긴밀하게 묶여있는 것처럼 보이지 않는다. 내가 예에서와 같은 만든 PDF 문서에서 이름을 텍스트를 복사 할 때 "✡✍✑✒✍☛✓"
는 각각의 단일 문자가 "✡=R ✍=a ✑=p ✒=h ✍=a ☛=e ✓=l"
또 다른 예에 매핑에
은 "라파엘이"변 : "Devel"
이 "✭☛✮☛✓"
로 바뀝니다 어떻게 할 수 이 잘못된 정보를 올바른 것으로 옮기는 파이썬 함수를 작성 하시겠습니까? PDF 문서에서 모든 것이 완벽하게 읽을 수 있습니다.
여기에는 포스트 스크립트를 사용하여 PDF를 작성하지만 올바른 글꼴/문자 정보를 문서에 추가하지 않는 컵 -PDF가 포함됩니다.
편지 'l'
은 항상 기호 '✓'
경우,이 checkmark unicode character
파이썬에서 어떻게 표현을 수정하는이 이상한 표현으로 문자를 다시 매핑 할 수 있습니까? 그렇다면 '✓'
기호를 'l'
문자로 바꾸거나 재 매핑 할 수 있습니까? 어떤 아이디어?
왜 내가 필요한가? 이 문서에서 텍스트 값을 검색해야합니다.
예, PDF 복사를 방지하기 위해 전문 글꼴을 사용하는 것으로 나타납니다. 텍스트는 * scrambled *이지만 폰트의 글자도 마찬가지입니다. 따라서 'a'가 유니 코드 코드 포인트 U + 0061에 매핑 되었다면, PDF는 대신에 모든 a를 U + 270D로 대체하고 특수 폰트는 일반 "WRITING HAND"글립 문자를 문자 a로 대체했습니다. 대체 요원이에요. –
당신은 맞습니다. Martijn Pieters는 유니 코드 "U + 270D"와 같습니다. 어떻게 그 텍스트를 디 스크램블링 할 수 있습니까? 어떻게 그 문자들을 원래의 값으로 되돌려 놓을 수 있습니까? 지금은 "U + 270D"이고 "U + 0061"로 돌아 간다? 파이썬 함수 arround가 있습니까? –