일부 html 구문 분석에 대해 대처하고 있습니다. 추출되는 정보를 처리하는 방법을 정의하는 데 상당히 어려움을 겪고 있습니다.파이썬 클래스에서 html 내용을 처리하기위한 접근법
예를 들어, http://www.the-numbers.com/movies/1999/FIGHT.php과 같은 페이지를 생각해보십시오. The Numbers Rating
, Rotten Tomatoes
, Production Budget
, Theatrical Release
및 기타와 같은 모든 콘텐츠를 처리하여 각 "키"가 가정 할 수있는 값을 저장하려고합니다.
추출 과정이 저를 위해 해결되었습니다.이 내용을 저장하는 올바른 방법에 대한 확신이 없습니다. 내가 말했듯이 그들은 "열쇠"처럼 작동하기 때문에 dictionary
은 직접적인 대답입니다. 아직도 내가 만들고있는 클래스에서이 "키"각각에 대한 멤버를 추가하여 유혹을 받는다.
질문은 이러한 내용에 액세스하는 동안 코드 작성을 고려할 때 어떤 접근 방식이 더 효과적이며,이 경우 가장 좋은 방법은 문제인지 여부입니다.
내가 가진 것첫 번째 경우에, 무언가 같이 :
class Data:
def __init__(self):
self.data = dict()
def adding_data(self):
self.data["key1"] = (val1, val2)
self.data["key2"] = val3
self.data["key3"] = [val4, val5, val6, ...]
그리고 1 초 동안 :
class Data:
def adding_data(self):
self.key1 = (val1, val2)
self.key2 = val3
self.key3 = [val4, val5, val6, ...]
내가 이것을 고려하고 이유 것은 내가 사용하고 있다는 것입니다 BeautifulSoup
API를 사용하고 있으며 나는 결과로 나오는 "수프"에서 각 태그를 처리하는 방식에 매우 익숙합니다.
soup = BeautifulSoup(data)
soup.div
soup.h2
soup.b
어떤 방식으로 사용자에게 친숙하다고 생각하십니까? 이 작업을 수행하는 더 좋은 방법이 있습니까?
나는 당신의 제안을 할 것이다! 게시물을 가져 주셔서 감사합니다! – Rubens