2017-11-07 12 views
0

웹 사이트에서 큰 HTML 텍스트를 구문 분석하고 싶습니다. 는 그래서 사업부를 분석하고 지금은 예를 들어, 태그 내부의 콘텐츠 원하는 :Lxml DIV 내부에서 DIV 구문 분석

<div id="lala"><p>I WANT</p> <ul><li>THIS</li></ul>. <p>All of them</p></div> 

이 내 다음 코드입니다 :

[<Element div at 0x29c4be2fa98>] 
을 :

patchpage = requests.get(href) 
     tree = html.fromstring(patchpage.content) 
     patch_message = tree.xpath('//div[@class="messageText"]') 
     for item in patch_message: 
      await client.say(item.text.strip()) # This is bugging and give me error 
     return await client.say(patch_message) 

에 대한 지금 patch_message 나에게 제공을

필자는 무엇을 제외하고/누군가 파이썬에 div 콘텐츠를 구문 분석하는 방법을 말해 줄 수 있습니까?

+0

BeautifulSoup를 사용해 보셨나요? –

+0

아니, 모든 BeaufitulSoup 튜토리얼은 정적 HTML 코드로 발견 되었기 때문에. 바꿀 수있는 페이지에서 HTML을 얻습니다. (게시판에서 최신 주제를 얻고이 게시물의 텍스트를 잡아 내고 싶습니다.) URL을 넣어야합니다. 예 :'newspage = requests.get ('http : //google.de ')' – Luranis

+0

이 페이지에서 전체 HTML 코드를 얻은 다음 필요한 div를 검색하고 이제 div를 찾았지만 내용이 필요합니다. – Luranis

답변

0

당신은 당신은 단지 없음이 제거되는 객체되지 제외해야 AttributeError: 'NoneType' object has no attribute 'strip'

오류를 얻을 수 있다고 가정.

for item in patch_message: 
    if item.text: 
     print item.text.strip()