2017-09-09 7 views
0

bs4를 사용하여 XML의 특정 요소의 일부 숫자 문자열을 변경했지만 XML을 저장할 때 html 또는 body 태그가 XML에 포함되는 것을 원하지 않습니다. 파일로서의 XML. > 문자열이 다음 -BeautifulSoup4가 <html> 및 <body> 태그를 사용하여 XML을 감싸는 것을 방지합니다.

<annotation> 
... more stuff here 
</annotation> 

soup = BeautifulSoup(file_obj.read(), 'lxml')

내가 그것을 저장하기 전에 내 XML을 싸게 치장하고 싶었지만 지금은 수프를 변환 단지 쉽게를 통해로드 한 후

<html> 
<body> 
<annotation> 
... more stuff here 
</annotation> 
</body> 
</html> 

된다 내가 원하지 않는 요소를 버리십시오.

링크 내가 사용 전체 XML 파일 하나에 : https://gist.github.com/jtara1/4e583160441976e198aba2c7651aaf70

답변

2

bs4를 사용하면 html.parser에 파서 엔진을 변경할 수 있습니다 :

soup = BeautifulSoup(file_obj.read(), 'html.parser')