PDF 파일을 구문 분석하고 색인 생성을 위해 텍스트를 추출하는 시스템이 있습니다. 우리가 가진 한 가지 문제점은 Illustrator가 fi (단일 문자 모양)에 합자를 사용하기 위해 "fi"가 포함 된 단어를 설정한다는 것입니다. 예를 들어이 라인자바 (및 기타)에서 "FI"의 합자를 결정하는 방법
...
"벤치와 풍부한 유리화 세라믹."
내 자바 디버거
이처럼 표시 "죽어 야지 벤치와 \ vitri 풍부한 u001Fed 세라믹."
\ u001F는 Adobe PDF 파일이 합자 "fi"용으로 사용하는 문자 코드입니다. 나는 분명히 "fi"에 대한 \ u001F의 출현을 교환 할 수 있지만 아무도이 사건을 다루는 견고한 방법을 알고 있나?
ick. 그들은 유니 코드 제어 문자를 사용하고 있습니까? –
많은 합자가 없습니다. ff, fl, ffl, fi, ffi가 주요 어휘입니다 (적어도 영어는 지원하지 않습니다). –
Adobe에는 많은 문자 집합 인코딩이 있습니다. 따라서 PDF 라이브러리에 따라 다릅니다. 예를 들어 글을 쓸 때 글꼴과 CP1252와 같은 인코딩을 선택합니다. 귀하의 경우 현재 유일한 해결책은 http://superuser.com/questions/220363/cleaning-up-pdftotext-font-issues에서 찾을 수 있습니다. –