2014-09-01 3 views
3

.docx 파일에서 작업하려면 python-docx 라이브러리와 함께 python 3.4를 사용하고 있습니다. 문서에서 텍스트를 추출 할 수있었습니다. 하지만 내 목표는 특정 글꼴로 텍스트를 추출하고 수정하는 것입니다.특정 글꼴의 텍스트를 docx 파일에서 추출합니다.

지난 이틀 동안 library documentation에서이 문제를 검색했습니다.

아무도이 라이브러리를 사용해 본 경험이 없습니까? 그렇다면 올바른 방향으로 나를 가리킬 수 있습니다.

답변

2

현재 python-docx에는 스타일을 사용하여 글꼴 서체를 적용 할 수있는 기능 만 있습니다. 특수 글꼴이 적용되는 경우이 사용할 수있는 단락 스타일을 사용하여

document = Document('having-fonts.docx') 
for paragraph in document.paragraphs: 
    for run in paragraph.runs: 
     if run.style == style_I_want: 
      print run.text 

: 당신이 내역 나는 수도에 대한 자세한 내용을 말할 수있는 경우

document = Document('having-fonts.docx') 
for paragraph in document.paragraphs: 
    if paragraph.style == style_I_want: 
     print paragraph.text 

을이 같은 특정 스타일을 가진 실행을 감지 할 수 있습니다 더 구체적 일 수 있어야합니다.

+0

나는이 파일을 보았을 때 'run.style'이'None'을,'paragraph.style'이'Normal'을 찾았고, 내 글꼴에 굵은 글꼴과 기울임 꼴이있는 것을 발견했습니다. 'Preeti' 글꼴 (Devanagari 스크립트를 표시하는 데 사용되는 글꼴)이있는 텍스트를 추출하여 수정하고 싶습니다. –

+0

서식을 사용하는 대신 텍스트에 서식을 직접 적용하는 것처럼 들립니다. 불행히도'python-docx'는 아직 직접 적용된 형식을 읽는 것을 지원하지 않습니다. GitHub 프로젝트에 기능 요청을 추가하려면 해당 기능을 추가하는 방법을 살펴 보겠습니다. – scanny

+1

이제 XML 파싱을 시도해 보겠습니다. 내 문제와 관련하여이 책을 읽을 수있는 곳을 알려주시겠습니까? –