2
A
답변
2
내가 제대로 이해한다면 html 태그를 삭제하고 싶지만 특정 태그는 삭제하고 싶습니까? 그렇다면 시작/종료 태그를 계속 모니터링하고 필요한 경우 처리하십시오. 예 :
MY_TAGS = ["tag1", "tag2"]
MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def handle_starttag(self, tag, attrs):
if tag in MY_TAGS:
self.fed.append("<%s>" % tag) # tag is only string, no <or>.
def handle_endtag(self, tag):
if tag in MY_TAGS:
self.fed.append("</%s>" % tag)
RegEx를 얼마나 상쾌하게 생각하니? 놀랄 것은 멋지다. –
[lxml.html] (http://lxml.de/)에서 처리 할 수 있습니다. – dav1d