pdf-parsing

    7

    2답변

    다음 경매에 나열된 일부 속성에 대한 분석을하고 싶습니다. 유감스럽게도 경매를 운영하는 도시는 정보를 구조화 된 형식으로 게시하지 않고 대신 경매로 올라가는 속성의 700+ page PDF을 제공합니다. DB에 삽입하기위한 구조화 된 형식으로 PDF를 구문 분석하거나 속성 스프레드 시트를 만드는 방법에 대한 의견이 커뮤니티에 있는지 궁금합니다. 여기 는 각

    1

    1답변

    pdf를 csv 파일로 변환하려고합니다. pdf 파일에는 첫 번째 행을 헤더로 갖는 표 형식의 데이터가 있습니다. 필자는 셀에서 텍스트를 추출하고 테이블의 텍스트 기준을 비교하여 줄 바꿈을 검색 할 수있는 수준에 도달했지만 테이블 시작을 감지하기 위해 표 테두리를 비교해야합니다. 필자는 PDF에서 줄을 찾고 비교하는 방법을 모르겠습니다. 누구든지 나를 도울

    0

    1답변

    나는 ITextRenderer와 HTML에서 PDF 파일을 구문 분석하고 있습니다 : html로 이미지에 로컬 경로가 포함되어있는 경우 private void createPdf(File file, String content) throws IOException, DocumentException { OutputStream os = new FileOu

    0

    3답변

    나는 iText java TextExtraction을 사용하여 PDF 파일에서 텍스트를 읽습니다. 아래 코드를 사용하면 은 영어로 PDF 용으로 잘 작동합니다. 이제 이미지로 데이터가 포함 된 PDF가 있습니다. 해당 이미지의 데이터를 읽으 려합니다. public class pdfreader { public static void main(Strin

    1

    1답변

    저는 pdf가 있습니다. 내 승리 (10), 파이썬 3.6 환경에서 pdfminer.six 설치 한 후, 나는 달렸다 : $ pdf2txt.py -o test1 download.pdf 나에게 화면 출력을주기. 내가 실행하면 : $ dumppdf.py -o test2 download.pdf 를 내가 얻을 : <trailer> <dict size="4

    1

    1답변

    글립 너비가 1000 (텍스트 단위의 1 단위에 해당)이고 글꼴 크기가 1 인 텍스트를 강조 표시하려고합니다. 변환 행렬은 [50 0 0 50 0 0]이다. 그 결과 텍스트가 너무 큽니다. 그러나 이것은 사실이 아닙니다. 표시되는 텍스트는 전혀 크지 않습니다. 그것은 정상적인 크기입니다. 모든 PDF 판독기 파일을 열어 단어를 강조하는 데 문제가 없으므로

    6

    1답변

    itextsharp를 사용하여 pdf 파일에서 단락 텍스트를 가져 오는 논리는 무엇입니까? 저는 PDF 만 텍스트 실행과 해당 텍스트의 실행이 어떤 단락과 관련되어 있는지, 그리고 알고 있는지 알고 있습니다. 거기에 어떤 <p> 태그 또는 pdf ..에서 단락을 결정하는 다른 태그가 없습니다 그러나 내가 좌표의 단락을 구축하기 위해 텍스트의 실행의 좌표를

    0

    2답변

    Apache PDFBox 라이브러리를 처음 사용합니다. 나는 이미 Questios How to extract font styles of text contents using pdfbox? 겪었 PDF 파일 단락에 글꼴 정보를 매핑 할 그러나 단락이있는 글꼴로 작성에 대한 정보를 제공하지 않습니다. para1 : 예를 들어, 내 페이지에 텍스트가 포함 된 경우

    0

    1답변

    PDF 파서 (http://www.pdfparser.org/)가 설치되었습니다. 나는 그들의 웹 사이트를 확인하고 데모를 사용했다. 이것은 나에게 내가 원하는 결과를 주었다. 작곡가를 사용하는 방법을 검색 한 후 마침내 그 파일을 사용할 수있었습니다. 이제 데모에서 결과를 얻는 방법에 대한 다음 문제로 인해 어려움을 겪고 있습니다. 설명서 페이지의 예제 코

    0

    1답변

    Smalot PDF 파서를 사용하여 pdf를 구문 분석하려고하는데 텍스트 형식이 잘못되었습니다. 단어의 글자 사이에 공백을 표시합니다. 예 : "Letter"라는 단어는 "전자"로 작성됩니다. 어떻게 해결할 수 있습니까? 또한 Smalot PDF 파서가 제공하는 문서로는 충분하지 않습니다. PDF Parser의 자세한 구현에 대해 좀 더 자세한 설명서가 필