좋아는 난 다운 투표 당신이 이미 작업을 수행하고 함께 붙어 아무것도 도움을 도구 추천을 요구하지 않기 때문에이 질문을. 코멘트에서 매트가 나보다 빠르기 때문에 물어 보는 법에 연결하는 것을 귀찮게하지 않을 것입니다.
이제는 pdf의 테이블에서 데이터를 추출하는이 특정 요구 사항은 Stack에서 몇 번 본 것으로, 나중에 참조 할 수 있도록보다 포괄적 인 대답을 작성하려고합니다. 한마디로
는 쉬운 방법이 없다, 캐치 모든 수행하는 방법 : 그것이 PDF 파일에 기록 된 테이블, 당신은 모든 관계형 정보를 잃을 때 무엇을지고 있기 때문에 PDF 스펙 당
을, PDF에 저장되는 것은 기본적으로 셀, 셀 내용, 테두리 등에 대한 지침을 그리는 데 사용됩니다.이 형식에서 표를 추출하고 재구성하면 추출 지침과 텍스트를 분석하여 텍스트 추출을 적용하고 추출 된 데이터가 테이블 또는 당신이 정의해야 할 일종의 알고리즘을 기반으로하지 않습니다.
이제 기본 사양의 확장 인 tagged-pdf가 있습니다. 이것은 원본 도면 지침 이외에 해당 내용 (StructRoot
에 저장되어 있음)에 대한 관계 정보가 포함 된 pdf입니다. 이 정보는 일반적으로 컨텐츠 간의 관계가 아직 알려지지 않은 작성 프로세스 중에 추가됩니다. Pdf가 잘 태그되어 있고 잘 구성되어 있다면, 모든 테이블은 태그에서 하나의 것으로 표시되어 테이블을 재구성하는 것은 간단합니다.
tagged-pdf의 존재는 대부분의 주석 작성자가 파일을 공유하도록 요청하는 이유이므로 태그가 지정되었는지 여부를 확인할 수 있으며 그 사실을 기반으로 조언을 제공합니다. 목표를 달성 할 수 있을지 아니면 어려운 일인지 결정하기 때문에 우선 먼저이를 확인하는 것이 좋습니다.
참조 용으로 pdf 파일을 공유 할 수 있습니까? 또는 그것이 어떻게 구성되어 있는지 설명해야합니다. 스캔 한 문서로 만든 PDF 파일이고 모든 페이지가 이미지로 생성 된 경우 여기에는 그다지 많은 가능성이 없을 수 있습니다. 그냥 텍스트로 구성되어 있고 "모두 선택"을하고 PDF 리더에서 복사 한 다음 텍스트 편집기에 붙여 넣으면 텍스트 형식으로 표시되어 도움이됩니다. –
테이블 형식의 pdf와 int 및 char 데이터가 포함되어 있습니다. –
그건 도움이되지 않습니다. 왜냐하면 난 열을 현명한 또는 행을 현명하게 구문 분석하기 때문에 조건 –