pdf-parsing

7열

2답변

다음 경매에 나열된 일부 속성에 대한 분석을하고 싶습니다. 유감스럽게도 경매를 운영하는 도시는 정보를 구조화 된 형식으로 게시하지 않고 대신 경매로 올라가는 속성의 700+ page PDF을 제공합니다. DB에 삽입하기위한 구조화 된 형식으로 PDF를 구문 분석하거나 속성 스프레드 시트를 만드는 방법에 대한 의견이 커뮤니티에 있는지 궁금합니다. 여기 는 각

1열

1답변

itextSharp에서 테이블 시작을 감지하는 방법?

pdf를 csv 파일로 변환하려고합니다. pdf 파일에는 첫 번째 행을 헤더로 갖는 표 형식의 데이터가 있습니다. 필자는 셀에서 텍스트를 추출하고 테이블의 텍스트 기준을 비교하여 줄 바꿈을 검색 할 수있는 수준에 도달했지만 테이블 시작을 감지하기 위해 표 테두리를 비교해야합니다. 필자는 PDF에서 줄을 찾고 비교하는 방법을 모르겠습니다. 누구든지 나를 도울

0열

1답변

ITextRenderer로 만든 pdf의 로컬 디렉토리에서 이미지를 가져 오는 방법은 무엇입니까? 다음과 같이

나는 ITextRenderer와 HTML에서 PDF 파일을 구문 분석하고 있습니다 : html로 이미지에 로컬 경로가 포함되어있는 경우 private void createPdf(File file, String content) throws IOException, DocumentException { OutputStream os = new FileOu

0열

3답변

PDF의 이미지에서 데이터 읽기

나는 iText java TextExtraction을 사용하여 PDF 파일에서 텍스트를 읽습니다. 아래 코드를 사용하면 은 영어로 PDF 용으로 잘 작동합니다. 이제 이미지로 데이터가 포함 된 PDF가 있습니다. 해당 이미지의 데이터를 읽으 려합니다. public class pdfreader { public static void main(Strin

1열

1답변

pdfminer pdf2text는 'FF'를 출력합니다.

저는 pdf가 있습니다. 내 승리 (10), 파이썬 3.6 환경에서 pdfminer.six 설치 한 후, 나는 달렸다 : $ pdf2txt.py -o test1 download.pdf 나에게 화면 출력을주기. 내가 실행하면 : $ dumppdf.py -o test2 download.pdf 를 내가 얻을 : <trailer> <dict size="4

1열

1답변

PDF 변형 행렬의 배율이 50 단위입니다.

글립 너비가 1000 (텍스트 단위의 1 단위에 해당)이고 글꼴 크기가 1 인 텍스트를 강조 표시하려고합니다. 변환 행렬은 [50 0 0 50 0 0]이다. 그 결과 텍스트가 너무 큽니다. 그러나 이것은 사실이 아닙니다. 표시되는 텍스트는 전혀 크지 않습니다. 그것은 정상적인 크기입니다. 모든 PDF 판독기 파일을 열어 단어를 강조하는 데 문제가 없으므로

6열

1답변

itextsharp를 사용하여 PDF에서 텍스트 단락을 얻으십시오

itextsharp를 사용하여 pdf 파일에서 단락 텍스트를 가져 오는 논리는 무엇입니까? 저는 PDF 만 텍스트 실행과 해당 텍스트의 실행이 어떤 단락과 관련되어 있는지, 그리고 알고 있는지 알고 있습니다. 거기에 어떤 <p> 태그 또는 pdf ..에서 단락을 결정하는 다른 태그가 없습니다 그러나 내가 좌표의 단락을 구축하기 위해 텍스트의 실행의 좌표를

0열

2답변

PDFBox를 사용하여 PDF의 텍스트 글꼴 정보

Apache PDFBox 라이브러리를 처음 사용합니다. 나는 이미 Questios How to extract font styles of text contents using pdfbox? 겪었 PDF 파일 단락에 글꼴 정보를 매핑 할 그러나 단락이있는 글꼴로 작성에 대한 정보를 제공하지 않습니다. para1 : 예를 들어, 내 페이지에 텍스트가 포함 된 경우

0열

1답변

'Smalot PDF Parser'결과 : 동일한 줄에 텍스트가 없습니다.

PDF 파서 (http://www.pdfparser.org/)가 설치되었습니다. 나는 그들의 웹 사이트를 확인하고 데모를 사용했다. 이것은 나에게 내가 원하는 결과를 주었다. 작곡가를 사용하는 방법을 검색 한 후 마침내 그 파일을 사용할 수있었습니다. 이제 데모에서 결과를 얻는 방법에 대한 다음 문제로 인해 어려움을 겪고 있습니다. 설명서 페이지의 예제 코

0열

1답변

Smalot PDF 파서를 사용하여 PDF를 구문 분석하는 동안 텍스트 형식의 오류가 발생했습니다.

Smalot PDF 파서를 사용하여 pdf를 구문 분석하려고하는데 텍스트 형식이 잘못되었습니다. 단어의 글자 사이에 공백을 표시합니다. 예 : "Letter"라는 단어는 "전자"로 작성됩니다. 어떻게 해결할 수 있습니까? 또한 Smalot PDF 파서가 제공하는 문서로는 충분하지 않습니다. PDF Parser의 자세한 구현에 대해 좀 더 자세한 설명서가 필