다음 경매에 나열된 일부 속성에 대한 분석을하고 싶습니다. 유감스럽게도 경매를 운영하는 도시는 정보를 구조화 된 형식으로 게시하지 않고 대신 경매로 올라가는 속성의 700+ page PDF을 제공합니다.PDF를 구조화 된 형식으로 변환하는 방법에 대한 권장 사항 찾기
DB에 삽입하기위한 구조화 된 형식으로 PDF를 구문 분석하거나 속성 스프레드 시트를 만드는 방법에 대한 의견이 커뮤니티에 있는지 궁금합니다. 여기
는 각 페이지가 무엇을 나타내는 이미지입니다 :그리고 여기에 몇 가지 속성을 나열하는 페이지의 : 나는 그래서 문제가없는 파이썬과 루비 편안 해요
을 솔루션을 스크립팅하지만, "열"과 그 열의 데이터가 함께 묶일 필요가 없기 때문에 이것은 모호한 제안 일 것입니다.
모든 아이디어는 크게 감사하겠습니다.
내 생각은 텍스트 변환기에 PDF를 사용하고 (컨버터가 당신에게 예측 가능한 출력 포맷을 제공한다는 가정) 텍스트 파일을 구문 분석하는 것입니다. –
네, 시도했습니다. 내가 시도한 루비 프로젝트 (https://github.com/kitplummer/pdftohtmlr)가 있고 그것은 쓰레기를 내뱉습니다. – doremi
텍스트는 어떻게됩니까? HTML처럼 보입니다. –