2016-11-01 6 views
0

PDF 파일에서 테이블 형식 데이터 추출을 자동화하고 있습니다. Tabula이라는 오픈 소스 라이브러리를 사용해야합니다. 이 도구는 다음과 같이 별도의 표 PDF 데이터에 열을 공급할 수있는 옵션을 제공합니다.Tabula/PDF 컬럼 단위

-c 80, 250, 380 

위의 내용은 5 개의 열을 생성합니다. 80, 250 및 380은 기둥 분리기 용 단위입니다.

누구나 80, 250 및 380의 단위는 무엇이며 페이지의 가로 위치는 어떤 숫자인지를 결정할 수 있습니까? PDF가 측정되는 공통 단위가 있습니까?

+0

코드를 사용하여 측정했을 때 어떤 현상이 발생 했습니까? – usr2564301

+1

300은 pdf 페이지의 중간에 나를 두는 것 같습니다. – HoosierCoder

+0

가장 좋은 것은 실제 Acrobat 곡자와이 숫자 사이에 생성 된 비율입니다. 그러나 이것들은 무언가를 의미해야한다고 생각합니다. – HoosierCoder

답변

1

문서에는 how to grab the coordinates from the tabula app을 설명하는 섹션이 있습니다.

좌표는 개발자가 원하는 영역을 선택한 후 "미리보기 & 추출 된 데이터 내보내기"를 클릭 한 후 개발자 도구의 "콘솔"탭에도 나타납니다.