docx, pdf 및 odt 파일을 가져 오기위한 가져 오기/내보내기 도구를 작성하고 있습니다. 책이 쓰여진 책.Python - 파일 (docx, pdf 및 odt)을 구문 분석하고 콘텐츠를 내 데이터 모델로 변환
우리는 이미 .epub 형식을위한 도구를 보유하고 있으며이를 넘어서는 기능을 확장하여 사이트 사용자의 유연성을 높일 수 있습니다.
지금까지 PDFMiner을 살펴본 결과, docx는 단지 openxml 형식을 기반으로하므로/document.xml이라는 단어는 본질적으로 모든 것을 포함하는 파일이며 lxml로 구문 분석 할 수 있습니다.
내가 가진 질문은 다음과 같습니다. 이러한 파일의 내용을 구문 분석하고 해당 내용에서 장 이름, 이미지 (있는 경우) 및 장 텍스트와 같은 항목을 추출하여 내용에 맞출 수 있기를 희망합니다.
Book --> o2m --> Chapter --> o2m --> Image
분명히 PDFMiner는 TOC를 반환하는 .get_outlines() 함수를 가지고 있습니다. 그러나 반환 된 튜플 (장 번호 및 제목)을 해당 장의 실제 페이지에 연결할 수는 없습니다.
더 문제가되는 것은 docx/odt; 그것들은 attrs와 child 엘리먼트를 가진 단락들 - < \ w : sdt> - 엘리먼트이다.
필자는 이러한 파일 유형에서 구조의 일부를 추정하고 필요한 경우 해당 아이디어 (2 또는 3)를 책을 가져 오려는 사용자를 위해 제안 된 형식으로 적용 할 수있는 아이디어를 찾고 있습니다. 이러한 파일 형식 중 하나를 통해
흥미로운 프로젝트입니다. 오픈 소스 프로젝트입니까? – Trimax
@Trimax 불행히도 없습니다. 상업용 사이트입니다. –
그것은 부끄러운 일입니다. 나는 colaborating을위한 프로젝트를 찾고 있습니다. – Trimax