2017-04-25 9 views
-2

Windows 7 및 python 3.3이 설치된 컴퓨터를 사용하고 있습니다. 내 조직에는 수천 개의 문서가 정리되어 있습니다. doc/docx 파일을 열고 특정 키워드의 텍스트를 검색 한 다음 문서를 다시 정렬하는 프로그램을 만들고 싶습니다. 특정 단어에 대한 단어 파일 (doc/docx)의 텍스트를 검색하는 방법을 찾고 있는데, Windows에 있어야하며 doc 및 docx를 모두 검색 할 수 있어야합니다.doc 및 docx에서 텍스트 받기

아이디어가 있으십니까?

답변

0

.docx 문서는 OpenXML 형식의 Zip 아카이브입니다. 먼저 압축을 풀어야합니다.

이 후에 당신은 실행할 수 있습니다

# Import the module 
from docx import * 

# Open the .docx file 
document = opendocx('A document.docx') 

# Search returns true if found  
search(document,'your search string') 
+0

나는 수천 개의 문서를 가지고 있으며, 나는 그 중 하나 하나를 모두 압축 해제 할 수 없다. 실용적이지 않다. –

+0

여기에 도움이 될 것입니다. https://python-docx.readthedocs.io/en/latest/ – Angrywasabi

+0

하지만 doc을 다루지는 않습니다 :-( –

0

하나는 textract 라이브러리를 사용할 수 있습니다. 그것은 "문서"모두의 치료뿐만 아니라 "DOCX"

import textract 
text = textract.process("path/to/file.extension") 

당신은 심지어 'antiword'사용할 수 있습니다 가지고 (sudo는을 apt-get을 antiword 설치) 후 첫 DOCX로에 문서를 변환 한 후 docx2txt을 읽어.

antiword filename.doc> filename.docx 궁극적으로 백엔드의 textract가 앤티 워드를 사용하고 있습니다.

+0

Brilliant, 고마워요! –

+0

설치가 끝나고 끝에 실패합니다. :-(나타납니다. python 3.3에서 작동하지 않습니다 :-( –

+0

screenshub를 보낼 수 있습니까? promp pip install textract를 통해 설치하는 경우 – Angrywasabi