라텍스로 작성된 Scientific 연구 논문의 PDF가 있습니다. 각각의 연구 논문은 "소개"관련 작업과 같은 부분이있다 "등, 그리고 별도로 각 섹션에서 텍스트를 추출하고 싶었다.Python을 사용하여 라텍스 내 보낸 PDF의 섹션에서 텍스트를 추출하십시오.
이 PDF는 부분이있다"의 "추상"와 "소개 "요약"섹션에서 필자는 italicts의 텍스트를 검색하고 싶습니다. "Introduction"에 대해서는 해당 단락에 모든 단락을 넣고 싶습니다.
라텍스 소스 파일을 가지고 있다면 데이터 마이닝 및 \ section {} 키워드에 기초한 텍스트 추출
따라서 저는 Python3에서 latex [link]으로 pdf를 변환하는 등 몇 가지 방법을 시도했지만 제안 된 소프트웨어가 제 시스템 (우분투 16.04)과 호환되지 않거나 유료 소프트웨어입니다. 나는 textract를 사용하려했지만 PDF에서 섹션을 추출 할 수있는 옵션이 없다.
라텍스로 만든 PDF에서 섹션을 추출하는 방법을 아는 사람이 있습니까?
arXiv에서 latex 소스 파일을 다운로드 한 다음 pandoc으로 처리하는 것이 더 쉽습니다. – dseuss