2017-04-02 3 views
0

나는 아래에 아주 어수선한 파서가 필요한 것을 가지고있다. 매개 변수로 HTML 페이지의 URL (예 : http://www.dictionary.com/browse/example)을 사용하는 메서드를 만들고이 파서를 사용하여 모든 데이터를 표시합니다. 나는 해결책을 내줄 누군가가 필요 없다. 그러나 조언을 주시면 감사하겠습니다. 고맙습니다.어떻게 파이썬에서 html.parser를 사용하여 특정 HTML 링크에서 데이터를 추출 할 수 있습니까?

from html.parser import HTMLParser 

class MyHTMLParser(HTMLParser): 

    def handle_data(self, data): 
     print("Encountered some data :", data) 

parser = MyHTMLParser() 
parser.feed('<html><head><title>Test</title></head>' 
      '<body><h1>Parse me!</h1></body></html>') 
+0

https://docs.python.org/2/howto/urllib2.html#fetching-urls가 문제를 해결합니까? –

+0

꽤 도움이되었습니다. 그러나 Python 2부터이 모듈에 많은 변화가있었습니다. 파이썬 3.6.1을 사용하고 있습니다. 궁금하신 분은 아래의 내 솔루션을 확인하십시오. 도와 줘서 고마워. –

답변

0

URL에서 데이터를 추출하는 방법은 다음과 같습니다 (이 경우 http://python.org/).

from html.parser import HTMLParser 
from urllib.request import urlopen 

class MyHTMLParser(HTMLParser): 
    def handle_data(self, data): 
     print("Encountered some data :", data) 

parser = MyHTMLParser() 
html = urlopen('http://python.org/') 
thing = html.read() 
parser.feed(thing.decode("utf-8"))