저는 방금 pdula에서 표를 추출하기 위해 tabula-py (및 tabula-java 물론)의 기쁨을 발견했습니다. 나는 지금 pdf 테이블에서 데이터를 읽는 작업을위한 스크립트를 프로그래밍하고있다. 내가 사용하고있는 pdf는 매일 같은 형식을 가지고 있으며 테이블은 항상 특정 영역에 있습니다. 이 영역을 감지하기 위해 Tabula.exe를 사용하고 있습니다. tabula.exe에서 사용되는 -a 매개 변수를 보려면 표를 선택하고 미리보기를 시각적으로 표시 한 다음 스크립트를 내 보냅니다. 그때 파이썬에서 내 명령이 사용하는, 즉 :Tabula-py가 오른쪽으로 분할되지 않습니다
df = tabula.read_pdf(os.fsdecode(directory)+filename, encoding = 'ISO-8859-1',
stream=True, area = "81.106,302.475,384.697,552.491", pages = 2, pandas_options={'header':None})
이 추출 멋진을 보여주는 하나이기 때문에이 표준 UTF-8에서 오류를 반환하기 때문에 인코딩 매개 변수를 사용하고, 스트림 방법입니다 tabula.exe의 테이블. 그러나 데이터 프레임에는 문제가 있습니다. 첫 번째 두 열 (tabula.exe의 미리보기에서 두 개의 서로 다른 열로 올바르게 표시됨)이 실제로는 하나의 열이므로 이름과 값이 함께 혼합되기 때문입니다.
같은 영역에서 tabula-py와 tabula.exe에서 왜 다른 결과가 나오는 지 알고 계십니까? 고마워요!