2017-04-18 2 views
0

이 질문은 this one from 2013과 관련되어 나타납니다. 그러나 도움이되지 않았습니다.Python ElementTree 이스케이프 문자 (XML)에 도달 할 때 iterparse의 ParseError

대용량 (2GB) XML 파일을 구문 분석하려고하며 Python 3.5.2 및 ElementTree를 사용하려고합니다. 파이썬에 새로운 해요,하지만 같은 이스케이프 문자에 도달 할 때까지 잘 작동 :

<author>Sanjeev Sax&ouml;na</author> 

가 반환 :

import xml.etree.ElementTree as etree 
for event, elem in etree.iterparse('test_esc.xml'): 
    # do something with the node 

:

test.xml 
    File "<string>", line unknown 
ParseError: undefined entity &ouml;: line 5, column 19enter code here 

내 코드는 다음과 같이 보입니다 이 문제를 해결하는 가장 좋은 방법은 무엇입니까? 이스케이프가 실제로 잘 작동 'O'구문 분석 :

<author>Sanjeev Saxöna</author> 

쉬운 방법가 있나요 프로그램 전체 XML 파일 언 이스케이프?

+1

답변이 여기에 있습니다.

+0

감사합니다! 그 대답은 나를 도왔다. –

답변

0

나는 Soulaimane Sahmi가 연계 한 답변에서 제안한대로 인라인 DTD를 XML 파일에 추가했습니다. 그곳에서 가장 좋은 해결책은 아닐지 모르지만 지금은 효과가 있습니다.