2017-04-20 9 views
0

나는 이미 파이썬 - DOCX 라이브러리를 확인추출 텍스트 (DOCX되지 않음)

파이썬을 사용하여 .DOCX 파일이 아닌 문서를 열고 읽을 수있는 많은 방법이 모스 질문에 유래 등의 답변을 확인 하지만 그것은 docx 만 지원합니다.

.doc 파일 (docx가 아님)에서 텍스트를 열어서 추출하고 싶습니다. 나를 도와주세요. 제가 파이썬으로 새롭기 때문에

답변

1

Tika Python을 사용할 수 있습니다. 파이썬을위한 Apache Tika 바인딩입니다. 좋은 라이브러리는 textract입니다.