나를 돕기 위해 Python Warrior가 필요합니다 (저는 멍청 해요!)! 모듈 urllib을 사용하여 인트라넷 사이트에서 특정 데이터를 긁어 내려고합니다. 그러나 직원이 볼 수만 있고 대중에게 공개되지 않는 회사 웹 사이트이므로이 코드를 얻는 이유는 다음과 같습니다.python을 사용하여 인트라넷 사이트에서 URL 데이터를 가져 오는 방법은 무엇입니까?
IOError : ('http error', 401, 'Unauthorized',)
어떻게해야합니까? 심지어 공개 사이트 얻을 수있는 사이트 사용 htmlfile.read()
샘플 코드를 읽지 않습니다 :
import urllib
import re
htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")
htmltext = htmlfile.read()
regex = '<span id="yfs_l84_aapl">(.+?)</span>'
pattern = re.compile(regex)
price = re.findall(pattern,htmltext)
print price
정규식으로 html을 구문 분석하지 마십시오 – heinst
@heinst 예. 아름다운 스프는 HTML을 구문 분석하는 훨씬 쉬운 방법입니다. https://pypi.python.org/pypi/beautifulsoup4/ –
글쎄, 나는 아름다운 스프를 발견했다. 그러나 나는 다운로드 할 수없는 많은 것들을 회사가 제한하기 때문에 설치를 피했다. (그러나 나는 피드백을 보내 주셔서 감사합니다 –