tabula

    2

    1답변

    저는 방금 pdula에서 표를 추출하기 위해 tabula-py (및 tabula-java 물론)의 기쁨을 발견했습니다. 나는 지금 pdf 테이블에서 데이터를 읽는 작업을위한 스크립트를 프로그래밍하고있다. 내가 사용하고있는 pdf는 매일 같은 형식을 가지고 있으며 테이블은 항상 특정 영역에 있습니다. 이 영역을 감지하기 위해 Tabula.exe를 사용하고 있

    0

    1답변

    PDF 파일의 "Content"페이지 (예 : 2 페이지)를 테이블로 추출하고 아이템을 추적하는 데이터 프레임과 해당 시작 페이지 번호 . 일부는 "Tabula"를 사용하도록 제안했습니다. 몇 줄을 시도했지만 read_pdf 모듈을 찾지 못하거나 빈 데이터 프레임을 얻지 못하는 것 같습니다. 어떤 도움을 주시면 감사하겠습니다. 만 2 열이있을 때 from

    1

    2답변

    자바 프로그램 내에서 tabula tool 명령을 실행하고 싶습니다. 내가 시도한 코드는 다음과 같습니다. System.setProperty("user.dir", "C:\\Program Files"); String command ="\\tabula\\tabula-0.9.0-SNAPSHOT-jar-with-dependencies.jar "+"D:\\samp

    0

    1답변

    내가 PDF에서 테이블 데이터를 원하는 나는, java -jar tabula-java.jar -a 301.95,14.85,841.0500000000001,695.25 -t example.pdf 하지만이에이 두 컬럼 데이터가 일부 행에 혼입 테이블 데이터를 얻기 위해 명령 아래 을 사용하고 TABULA 명령 행에서 좌표 그래서 완벽한 데이터를 얻기 위해

    0

    1답변

    tabula-py의 read_pdf 함수를 실행할 수 없습니다. 그것은 다음과 같은 오류 메시지가 생성 될 것으로 보인다 : 역 추적으로 WindowsError: [Error 2] The system cannot find the file specified : Traceback (most recent call last): File "C:/User

    0

    1답변

    PDF 파일에서 테이블 형식 데이터 추출을 자동화하고 있습니다. Tabula이라는 오픈 소스 라이브러리를 사용해야합니다. 이 도구는 다음과 같이 별도의 표 PDF 데이터에 열을 공급할 수있는 옵션을 제공합니다. -c 80, 250, 380 위의 내용은 5 개의 열을 생성합니다. 80, 250 및 380은 기둥 분리기 용 단위입니다. 누구나 80, 250

    0

    1답변

    나는 Tabula를 사용하여 PDF에서 테이블을 추출했습니다. 그것은 약간의 청소를 뺀 것입니다. 마지막 문제는 내가 어떻게 극복 해야할지 잘 모르겠다는 것입니다. 셀 행이 너무 큰 경우 (즉, 줄 바꿈 된 텍스트가 포함 된 경우) Tabula는 거의 모든 정보를 포함하는 행과 두 번째 행을 포함하는 행으로 두 행으로 나눕니다. 위 행의 첫 번째 셀 텍스트

    0

    1답변

    자바 라이브러리 타뷸라에 tabula-py 래퍼를 사용하는 간단한 파이썬 서버를 작성했습니다. 로컬로 테스트 한 후 해당 클라이언트를 사용하고 모든 것이 작동하는지 확인하기 위해 바닐라 우분투 서버 16.04 VBox 인스턴스에서 실행하려고했습니다. 내가 런타임 오류 (같은 아래) 얻고 있었다, 나는 파이썬 CLI를 사용하여 간단한 테스트를 시도 : >>>

    0

    1답변

    나는 거기에 테이블이있는 pdf 파일을 가지고 있으며 그 테이블을 Pandas로 가져 오려고합니다. pdf 테이블을 추출하는 것은 옳은 일로 악명 높게 어렵지만, 나는 tabula가 가장 잘 작동한다는 것을 발견했습니다. 그것은 아직 완벽하지는 않지만 제가 본 최고의 멀리 떨어져 있습니다. 나는이 PDF 테이블이 있습니다 참고 테이블의 헤더를, 어떻게 그들

    0

    1답변

    나는 Tabula라는 훌륭한 라이브러리를 발견했으며 거의 ​​그 트릭을 수행했습니다. 불행히도 첫 번째 페이지에는 타뷸라가 추출하기를 원하지 않는 쓸데없는 영역이 많이 있습니다. 문서에 따르면 추출 할 페이지 영역을 지정할 수 있습니다. 그러나 쓸모없는 영역은 내 PDF 파일의 첫 번째 페이지에만 있으므로 모든 후속 페이지에 대해 Tabula는 맨 위 섹션