2 페이지가 포함 된 PDF 파일이 있습니다. Ojective-C에서 파서와 구문 분석을하면 다음과 같은 상황이 발생합니다.PDF를 파싱하면 다른 페이지에서 동일한 텍스트가 두 번 표시됩니다.
첫 번째 페이지의 모든 부분이 정상적으로 작동합니다. 미리보기, Adobe Reader 등의 PDF 리더에서 시각적으로 볼 수있는 텍스트가 있습니다. 두 번째 페이지의 경우 두 번째 페이지에있는 텍스트에 첫 번째 페이지의 텍스트 일부가 더해져 두 번째 페이지에 없습니다.
다른 파서를 사용해 보았습니다. pdftotext (xpdf) 그들은 올바른 결과를 얻을 수있었습니다. Pdfminer (파이썬에서) https://pypi.python.org/pypi/pdfminer/, 나는 내가 가진 것과 같은 결과를 얻었다. 첫 번째 페이지의 텍스트 부분이 두 번 추출됩니다.
내 질문은 어떻게 될 수 있습니까? 이 상황을 본 적이 있습니까? 텍스트가 실제로 두 번째 페이지에 있다면, 왜 PDF 독자는 그것을 보여주지 않습니까? 이것에 대한 생각이 있습니까?
아마도 텍스트가 페이지에 있지만 표시되지 않을 수 있습니다. "Crop Box"라고하는 것, "OCG"라고하는 것 ... 아마 흰색 텍스트가 흰색 일 수 있습니다. 실제 PDF를 보지 않고도 추측 할 수는 있지만 가능한 많은 이유가 있습니다. –
Illustrator 및 Acrobat Pro에서 파일을 열려고했지만 아무 것도 보지 못했습니다. 나는 또한 두 번째 페이지에서 텍스트를 선택하려고 시도했지만, 우리가 볼 수있는 텍스트 이상의 것은 아닙니다. 의견을 보내 주셔서 감사합니다. 더 많은 아이디어를 환영합니다. – bob
필자는 PDF 레퍼런스를 한 번 보았습니다. 1.4 PDF와 옵션 컨텐츠는 v. 1.5에서만 시작하기 때문에 내 PDF에는 OCG가 없습니다. 내 문서 카탈로그 사전을 확인했지만 OCProperties 항목이 없습니다. – bob