pdf-parsing

1열

1답변

내가이 샘플 PDF 파일이 스트림 : Annotated file :이 결과에 텍스트 주석을 첨부하려고 Original file 그러나 MAC OSX의 미리보기에는 Adobe 주석이 주석이 달린 문서를 열 수없는 새로운 주석이없는 문서가 여전히 표시됩니다 ( ). 이 문서를 여는 동안 오류가 발생했습니다. 파일이 손상되어 복구 할 수 없습니다. 지금까지 "클

8열

3답변

PDF를 파싱 할 때 이상한 공백이 있음

PDF 문서를 구문 분석해야합니다. 이미 파서를 구현하고 라이브러리를 사용했습니다. iText 그리고 지금까지 아무런 문제없이 작동했습니다. 아니요. 단어 중간에 매우 이상한 공백을 가져 오는 다른 문서를 구문 분석해야합니다. 예를 들어 내가 얻을 : Vo에 RBER eitung 안녕히 Motorr의 adsaison 다이. Viele은 Motorr ADF

5열

1답변

haskell - .pdf 파일의 구문 분석/읽기

haskell에서 .pdf 파일의 암호를 해독하고 내용을 읽고 String을 반환 할 가능성이 있습니까? 그리고, 존재하는 경우, 당신은 나에게 예컨대 : 사전에 ... import necessaryPackage ... pdfParsing = ... ... 감사와 같은 약간의 예를 줄 수 있습니다. 최고 감사합니다,

4열

2답변

PDF 크로스 레퍼런스 스트림

PDF 파서/라이터를 개발 중이지만 상호 참조 스트림을 생성하는 데 어려움이 있습니다. 내 프로그램에서 this 파일을 읽은 다음 선형화를 제거하고 개체 스트림의 모든 개체의 압축을 풉니 다. 마지막으로 PDF 파일을 만들고 저장합니다. 정상 교차 참조 & 예고편을 사용하면 this 파일에서 볼 수있는 것처럼 정상적으로 작동합니다. 내가 대신 (this 파

4열

1답변

PDF에서 문자열 위치가있는 모든 텍스트를 추출하십시오.

이것은 오래된 질문처럼 보일 수 있습니다. 그러나 30 분 정도의 시간을 들여서 검색 한 결과를 완전히 찾아 내지 못했습니다. PDFBox를 사용하고 있으며 각 문자열의 좌표와 함께 PDF 파일의 모든 텍스트를 추출하고 싶습니다. 그들의 PrintTextLocations 예제 (http://pdfbox.apache.org/apidocs/org/apache/

1열

1답변

이진 파일을 구문 분석하는 동안 오류가 발생했습니다. (대부분 PDF)

바이너리 파일의 경우 ByteArrayInputStream을 사용하여 Apache Tika를 사용하여 pdf 파일을 구문 분석하려고하는데 일부 pdf 파일의 오류가 발생하고 일부는 매우 잘 파싱됩니다. .. 이전에 나는 Tika를 사용하여 동일한 pdf 파일을 파싱 할 수 있었지만, 지금 ByteArrayInputStream을 사용할 때 오류가 발생하기 시

1열

1답변

Pdf 구문 분석, 텍스트 압축 해제 방법

안녕하세요, pdf 파일을 구문 분석하려고합니다. pdf에서 텍스트를 추출 할 수 있지만 pdf가 flatedecode를 사용하여 압축 된 경우 압축 해제 방법을 알기 위해 정크 문자가 필요합니다. 텍스트, 필터 사용법을 아는 법?

5열

2답변

Hadoop지도에서 PDF 파일 구문 분석

Hadoop의지도 축소 프로그램에서 HDFS로 PDF 파일을 구문 분석해야합니다. 그래서 입력을으로 나누어 HDFS에서 PDF 파일을 얻습니다.이 파일은 구문 분석되어 매퍼 클래스로 보내야합니다. 이 InputFormat을 구현하기 위해 나는 link을 통과했다. 이러한 입력 분할은 어떻게 파싱되어 텍스트 형식으로 변환 될 수 있습니까?

2열

1답변

PDF iOS의 패키지

PDF 패키지에 포함 된 PDF 문서를 추출하는 데 시간이 많이 걸렸습니다. 어디서나 문서 나 예제 코드를 찾지 못했지만 Adobe Reader 앱과 PDFExpert 앱이 지원하므로 불가능하지 않습니다. 그들이 자신의 파서를 가지고, 내가 그에게 오지 않는 희망 수 ... 크게 될 편집 감사합니다 올바른 방향으로 날 가리 킵니다 모든 힌트 : 오랜 시간

4열

2답변

클릭 할 수있는 콘텐츠 페이지가 포함 된 PDF 파일 구문 분석

클릭 가능한 콘텐츠 페이지가있는 PDF 파일이 있다고 가정 해 보겠습니다. (저는 챕터와 서브 챕터에 대해 말하고 있습니다) C#에서 특정 파일을 어떻게 파싱 할 수 있습니까? 그리고 응용 프로그램에서 읽을 PDF가 챕터/내용 등을 가지고 있는지 여부를 어떻게 알 수 있습니까? 이 내가 내용의 클릭 가능한 테이블 PDF를 찾을 것 같지 않았다 https:/