저는 python으로 일부 요소의 전화 번호와 주소를 가져 오는 스크립트를 작성했습니다. 문제는 내가 전화 번호를 구문 분석하려고 시도한 방식이 확실히 지저분한 것입니다. 나는 주소에 대해서도 똑같이 할 수있다. 그러나 더 깨끗하고 좋은 방법이 있습니까? 데이터가 포함되어있는 내전화 번호와 주소를 구문 분석 할 수 없습니다.
요소 : 그건 그렇고
(330)971-7456
:
from lxml.html import fromstring
tree = fromstring(html_content)
phone = ' '.join([elem.text_content().strip().split()[-2] for elem in tree.cssselect("div")])
phone1 = ' '.join([elem.text_content().strip().split()[-1] for elem in tree.cssselect("div")])
print(phone+phone1)
결과 :
html_content='''
<div style="">
<strong>Pamela Banchy, Chief Information Officer</strong>
<br>Western Reserve Hospital<br>
<br>Lyndhurst, OH <br>
<a href="mailto:[email protected]">[email protected]</a>
<br>(330) 971-7456<br>
</div>
'''
표현 및 스크립트 나는 전화 번호를 구문 분석하는 데 사용했습니다 , 주소는 Lyndhurst, OH
이고 전화 번호는 (330)971-7456
입니다. ady는 지저분한 방식으로 움켜 쥐었다.
는 정보, 아니면 그냥이 하나를 추출하기 위해 많은 유사한 태그가 있습니까? – Reti43
많은 유사한 br 태그가 있지만 일반적인 것은 전화 번호가 마지막 위치에 있고 주소가 세 번째로 마지막에 있음을 나타냅니다. – SIM