여러 열이있는 테이블이 포함 된 pdf 파일을 읽어야합니다. iTextSharp를 사용하여 파일을 읽을 수 있지만 서식이 지정되지 않은 텍스트가 많이 있습니다. 데이터베이스에 삽입 할 수 있도록 데이터를 구조화 할 수 없습니다.구조화 된 형식의 표 형식 데이터를 얻기 위해 PDF 파일 읽기
제안 사항?
여러 열이있는 테이블이 포함 된 pdf 파일을 읽어야합니다. iTextSharp를 사용하여 파일을 읽을 수 있지만 서식이 지정되지 않은 텍스트가 많이 있습니다. 데이터베이스에 삽입 할 수 있도록 데이터를 구조화 할 수 없습니다.구조화 된 형식의 표 형식 데이터를 얻기 위해 PDF 파일 읽기
제안 사항?
에서 왜
이 설명하는 기사가있다. 적어도 표 형식으로 데이터를 읽는 중입니다. Mark가 제안한 제안을 시도했지만, 필자의 요구 사항에 따라 실현 가능성이없는 것으로 보입니다.
정확하게 이해하면 pdf 텍스트는 위치에 따라 저장되므로 행이나 열의 개념이 없습니다. 즉, 다른 열에서 읽는 "가능성"에 따라 경험적 방법을 사용해야합니다.
단어 사이의 공백을 비교하여이를 시도 할 수 있습니다. (ITextSharp 인터페이스에 익숙하지 않아서 용서할 수 없다는 것을 말하면 용서해주십시오.) 저는 주로 pdfNet에 익숙합니다.
또 다른 생각은 저에게 다가 왔습니다. 텍스트는 시각적에게 열을 분리 등 수직 라인을 가지고있다. 그런 경우에는 텍스트가 왼쪽 또는 열 라인의 권리.
경우 당신은 결정하는 추론을 마련 할 수있을 것입니다 ...
그러나 할 수있는 가장 좋은 것은 가능하면, 아를 얻는 것입니다. 오래된 데이터를보다 데이터베이스 친숙한 형식으로 저장합니다. 이것은 장기적으로 골치 거리를 덜어 줄 것입니다.
- Jason
구조화 된 텍스트가없는 한 열을 표시하는 태그가 없습니다. PdfBox와 같은 도구는 테이블을 추출하고 추출하기 위해 '추측'합니다. 텍스트 추출 그렇게 열심히 내가 이 작업을 수행 할 정직 방법이 없다는 결론을하고 http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text
일반적으로 PDF 파일에서 데이터를 읽는 것은 어렵고 오류가 발생하기 쉽습니다. "파일을 읽을 수있다"고 말하면 정확히 무엇을 의미합니까? PdfReader 클래스를 사용하고 있습니까? –
예. 나는 PdfReader를 사용하여 파일을 읽는다. 그러나 그것은 완전히 흩어졌습니다. 데이터가 테이블에 있기 때문에 올바르게 읽지 못했습니다. – asyncwait