2010-08-20 2 views
3
  1. 단어 또는 엑셀 파일로 만든 몇 개의 pdf 파일이 있습니다.PDF의 중첩 테이블에서 데이터 추출

  2. 테이블에있는 정보를 가져와야합니다.

  3. 문서의 텍스트가 이미지가 아니므로 pdfbox와 같은 도구를 사용하여 텍스트를 추출 할 수 있습니다.

  4. 내가 텍스트를 가지고있을 때 테이블 경계가 어디인지 알 수 없기 때문에 내가 속한 테이블의 셀을 알 수있는 방법이 없습니다.

  5. Iv'e는 abby 또는 solid pdf 변환기와 같은 몇 가지 데스크톱 도구를 사용하여 파일을 멋진 단어 문서로 변환 할 수 있지만이 프로그램을 수행 할 수 있기를 원하는데 내 요구 사항에 맞지 않습니다. C#에서.

  6. 일부 테이블에는 중첩 된 테이블이있어 생각하면 약간 더 어려워집니다.

나는

+0

http://sourceforge.net/projects/pdftohtml/files/에서 pdftohtml을 다운로드하고 -xml 스위치를 사용하여 xml 출력이 더 나은 레이아웃 표를 제공하는지 확인할 수 있습니다. 소스 코드는 C로 제공되며 일부 작업과 연계 될 수 있습니다. 또는 단순히 프로세스 외부 호출로 .exe를 호출하십시오. –

+0

이 솔루션은 전혀 작동하지 않습니다. 감사합니다 – pooky

+0

[itextsharp를 사용하여 PDF에서 테이블을 읽는 방법] (https://stackoverflow.com/questions/15679958/how-to-read-table-from-pdf-using-itextsharp) – bubi

답변

1

여기에 어려움이 PDF의 텍스트가 모든 테이블에 포함되지 않는다는 사실에 의해 발생합니다 당신의 도움을 주셔서 감사합니다. 그것은 그 것처럼 보일지도 모르지만 표면 아래에는 보이지 않습니다.

내가 생각할 수있는 몇 가지 옵션이 있습니다. 그러나 그들 중 어느 누구도 당신이 좋아할만큼 만족스럽지 않을 것입니다.

  1. PDF를 Excel/Word로 변환하기 위해 SDK를 제공하는 회사가 있습니다. Investintech와 Iceni는 몇 가지 예입니다. 그러나 이러한 솔루션은 무료가 아닙니다.
  2. 테이블 데이터를 추출해야하는 PDF 파일의 정확한 레이아웃을 알고있는 경우 PDF에서 텍스트를 추출하고 추출 된 텍스트의 정확한 좌표를 알려주는 SDK를 사용할 수 있습니다 . 이 방법을 사용하면 텍스트의 위치를 ​​사전에 알아야하므로 페이지의 특정 영역에서 텍스트를 추출 할 수 있습니다. 임의의 문서를 처리해야하는 경우 분명히 작동하지 않습니다.

어려운 작업이지만 희망 사항으로 시작점이됩니다.

+0

감사합니다. 귀하의 답변 1. 언급하신 프로그램은 좋은 결과를 제공하지 않습니다. 나는 무료가 아니지만 그것이 효과가 있는지 확인해야 할 해결책을 가지고 가지 않아도 돼. 2. 나는 코디네이트를 사용하는 해결책으로 놀아 보았지만, 나는 어떻게 보지 못 했느냐? 국경의 좌표를 모른 채이 솔루션을 사용할 수 있습니다. 테이블의 텍스트 위치가 변경됩니다 (중첩 테이블, 셀의 멀티 라인) – pooky