저는 일부 HTML 요소에서 일부 텍스트를 긁어내는 스크립트를 파이썬으로 작성했습니다. 스크립트는 지금 그것을 분석 할 수 있습니다. 그러나 문제는 그 결과가 그들 사이에 공백이있는 이상하게 보입니다. 어떻게 해결할 수 있습니까? 어떤 도움을 주시면 감사하겠습니다. 나는 데긁힌 텍스트 사이에 공백을 제거 할 수 없습니다.
from lxml.html import fromstring
root = fromstring(html)
address = [item.text for item in root.cssselect(".postal-address p")]
print(address)
결과 :
11525 23 AVE, EDMONTON,\n AB\n ,\n T6J 4T3\n
이 내가 함께 노력하고있어 스크립트입니다
html="""
<div class="postal-address">
<p>11525 23 AVE</p>
<p>EDMONTON,
AB
,
T6J 4T3
</p>
<p><a rel="nofollow" href="mailto:[email protected]">[email protected]</a></p>
<p><a rel="nofollow" href="http://www.something.org" target="_blank">Visit our Web Site</a></p>
</div>
"""
:
이
는 텍스트에서 긁어되어야하는 HTML 요소이다예상 결과 :
11525 23 AVE EDMONTON, AB, T6J 4T3
이 줄에 .strip()
과 .replace("\n","")
을 적용하려고 시도했지만 이라는 오류가 발생했습니다.
Btw, 나는 regex
과 관련된 해결책을 원하지 않습니다. 미리 감사드립니다.
Andersson 경에게 감사드립니다. 당신은 항상 원하는 출력에만 국한됩니다. 다시 한번 감사합니다. – SIM