python HTMLParser 라이브러리를 사용하여 HTML 페이지에서 값을 가져 오려고합니다. 내가의 개최 얻을하려는 값이 HTML 요소 내에 :파이썬 HTMLParser 라이브러리를 사용하여 특정 div 태그에서 데이터를 추출하려면 어떻게해야합니까?
...
<div id="remository">20</div>
...
이 내 HTMLParser 클래스는 지금까지입니다 :
는class LinksParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.seen = {}
def handle_starttag(self, tag, attributes):
if tag != 'div': return
for name, value in attributes:
if name == 'id' and value == 'remository':
#print value
return
def handle_data(self, data):
print data
p = LinksParser()
f = urllib.urlopen("http://domain.com/somepage.html")
html = f.read()
p.feed(html)
p.close()
은 누군가가 올바른 방향으로 날 포인트? 나는 클래스 기능 (20)
당신이 HTML 구문 분석을 많이 수행하는 경우, 시도 [아름다운 수프] (http://www.crummy.com/software/BeautifulSoup/). – zvone
그 라이브러리는 파이썬 표준 라이브러리로 포함되어 있습니까? 나는 HTMLParser를 고수하기로 결심했다. – Martin
@zvone 왜 html 구문 분석을 위해 BeautifulSoup이 더 나은가요? 여전히 권장 모듈입니까? 감사. –