2
아래 코드는 HTML을 구문 분석하므로 앰퍼샌드가 데이터에 나타날 때 문제가 발생합니다.쉼표로 구분 된 문자열도 앰퍼샌드를 분할합니다.
from HTMLParser import HTMLParser
data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\
'<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA ActionB</body></html>'
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print data.split(',')
parser = MyHTMLParser()
parser.feed(data)
그것은 단지 쉼표 대신 '&을'분할되어
출력.
['107', '1', '236', '1000', '70', '498', 'NameA NameB ']
['&']
[' NameC - ActionA ActionB']
감사
쉼표로만 나뉩니다. HTML 구문 분석기는 별도의 토큰으로 "&"를 처리합니다. – yak
유일한 '&'는 PCDATA 섹션에서 유효하지 않습니다. –
많은 감사 인사 –