0
정보 테이블이있는 웹 페이지를 긁는 웹 스크래핑 프로그램을 만들려고합니다. 매 5 분마다. 웹 페이지가 다르거 나 업데이트 된 경우 새 페이지를 원본으로 만들고 업데이트를 알리는 이메일을 보내야합니다. 지금까지 내 코드는 다음과 같습니다.내 프로그램을 실행하면 '[]'만 반환되고 웹 사이트의 정보 테이블에서 데이터를 반환해야합니다.
import urllib
import urllib.request as request
import re
totalurl = "https://www.icc-ccs.org/index.php/piracy-reporting-centre/live-piracy-report"
htmlfile = urllib.request.urlopen(totalurl)
htmltext = htmlfile.read()
regex = '<div class="fabrikDataContainer">...</div>'
pattern = re.compile(regex)
with urllib.request.urlopen(totalurl) as response:
html = htmltext.decode()
num = re.findall(pattern, html)
print(num)
감사하지만 다음과 같은 오류가 나타납니다. 라인 3, "평 : 'LXML'** –
** 추적 (최근 호출 마지막) : 파일 "/ Users/kieronblemings/Desktop/Web scraping/table scrape. lxml이 수입 HTML ModuleNotFoundError에서
시도가' – Andersson
lxml' 설치 PIP라는 이름의 모듈이 말한다 ** 설치 ** 당신은'실행해야 잘못된 구문 @Andersson –