2009-11-25 5 views
1

여러 열이있는 테이블이 포함 된 pdf 파일을 읽어야합니다. iTextSharp를 사용하여 파일을 읽을 수 있지만 서식이 지정되지 않은 텍스트가 많이 있습니다. 데이터베이스에 삽입 할 수 있도록 데이터를 구조화 할 수 없습니다.구조화 된 형식의 표 형식 데이터를 얻기 위해 PDF 파일 읽기

제안 사항?

+0

일반적으로 PDF 파일에서 데이터를 읽는 것은 어렵고 오류가 발생하기 쉽습니다. "파일을 읽을 수있다"고 말하면 정확히 무엇을 의미합니까? PdfReader 클래스를 사용하고 있습니까? –

+0

예. 나는 PdfReader를 사용하여 파일을 읽는다. 그러나 그것은 완전히 흩어졌습니다. 데이터가 테이블에 있기 때문에 올바르게 읽지 못했습니다. – asyncwait

답변

0

에서 왜

이 설명하는 기사가있다. 적어도 표 형식으로 데이터를 읽는 중입니다. Mark가 제안한 제안을 시도했지만, 필자의 요구 사항에 따라 실현 가능성이없는 것으로 보입니다.

0

정확하게 이해하면 pdf 텍스트는 위치에 따라 저장되므로 행이나 열의 개념이 없습니다. 즉, 다른 열에서 읽는 "가능성"에 따라 경험적 방법을 사용해야합니다.

단어 사이의 공백을 비교하여이를 시도 할 수 있습니다. (ITextSharp 인터페이스에 익숙하지 않아서 용서할 수 없다는 것을 말하면 용서해주십시오.) 저는 주로 pdfNet에 익숙합니다.

또 다른 생각은 저에게 다가 왔습니다. 텍스트는 시각적에게 열을 분리 등 수직 라인을 가지고있다. 그런 경우에는 텍스트가 왼쪽 또는 열 라인의 권리.

경우 당신은 결정하는 추론을 마련 할 수있을 것입니다 ...

그러나 할 수있는 가장 좋은 것은 가능하면, 아를 얻는 것입니다. 오래된 데이터를보다 데이터베이스 친숙한 형식으로 저장합니다. 이것은 장기적으로 골치 거리를 덜어 줄 것입니다.

- Jason

1

구조화 된 텍스트가없는 한 열을 표시하는 태그가 없습니다. PdfBox와 같은 도구는 테이블을 추출하고 추출하기 위해 '추측'합니다. 텍스트 추출 그렇게 열심히 내가 이 작업을 수행 할 정직 방법이 없다는 결론을하고 http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text