2017-12-20 25 views
0

저는 파이썬과 데이터 마이닝에 전혀 익숙하지 않아 출력에서 ​​파트를 추출하는 것에 대해 질문이 있습니다. 3.6에서 Python을 사용하고 있으며 오늘 아침에 모든 항목을 업데이트했습니다. 출력을 익명화하고 암호, 토큰 등이 포함 된 모든 줄을 제거했습니다.beautifulsoup로 의견을 추출하는 방법은 무엇입니까?

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open("facebookoutput.html"), "html.parser") 

comments = soup.findAll('div', class_="_2b06") 

print(comments[0]) # show print of first entry: 

<div class="_2b06"><div class="_2b05"><a href="/stuartd?fref=nf&amp;rc=p& amp;__tn__=R-R">some Name </a></div><div data-commentid="100000000000000000222222000000000000000" data-sigil="comment-body">There is nice comment. I like stackoverflow. </div></div> 

'좋은 의견이 있습니다. 나는 stackoverflow를 좋아한다.

미리 감사드립니다.

+0

'의견 [0] .div.find_all ('DIV') - 1] .text' ... 어쩌면? –

+0

이것을 시도했지만'IndexError :리스트 인덱스가 범위를 벗어났습니다. ' – smurfit89

답변

1

이 시도 :

from bs4 import BeautifulSoup 

content=""" 
<div class="_2b06"><div class="_2b05"><a href="/stuartd?fref=nf&amp;rc=p& amp;__tn__=R-R">some Name </a></div><div data-commentid="100000000000000000222222000000000000000" data-sigil="comment-body">There is nice comment. I like stackoverflow. </div></div> 
""" 

soup = BeautifulSoup(content, "html.parser") 
comments = ' '.join([item.text for item in soup.select("[data-sigil='comment-body']")]) 
print(comments) 

출력 :

There is nice comment. I like stackoverflow.