urllib을 사용하는 사이트에서 html 데이터를 가져 오려고하지만 일부 사이트의 경우 파이썬에서 알 수없는 문자로 끝납니다.

안녕하세요, 저는 urllib.openurl.read()를 사용하여 사이트에서 html 데이터를 가져 오려고합니다. 하지만 일부 사이트에 대해서는 데이터 링크가이 * 6 \ xbdW \ xb6 \ xd6 \ xff \ xca \ x9d \ x9b0 | \ xc0 \ x96a \ xc7 \ xc8 \ xf7 \ xa7 \ x10- \ x8aM \ xf8 \ x * 그리고 나는 그것이 무엇인지, 왜 내가 이렇게 좋아하는지 전혀 모른다. 나는 거기에 몇 가지 거기에 아무런 행운을 볼 수 없기 때문에 나는 어둠 속에서 나를 인도 해주십시오. 다음은 제 코드입니다 --->urllib을 사용하는 사이트에서 html 데이터를 가져 오려고하지만 일부 사이트의 경우 파이썬에서 알 수없는 문자로 끝납니다.

url = "http://mangafox.me/manga/online_the_comic/c001/1.html" # for this site and some more its not working 
page = urllib.urlopen(url).read() 
print page

그리고 여러분은이 코드를 인쇄 한 후에 무슨 일이 벌어지는 지 압니다.

출처

2016-12-04 laslavinco

왜'requests'과 아름다운 수프를 사용하지 :

이 문제를 살펴해야합니까? – jonrsharpe

이 페이지는 GZIP 형식에, 당신은 데이터를 가지고 전에 압축을 풀고있어 다음은 GZIP 형식을 의미하는 코드의 시작에서

UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b in position 1: ordinal not in range(128)

0x8B에 있습니다.

twitter trends api UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: unexpected code byte

출처

2016-12-04 17:55:25

urllib을 사용하는 사이트에서 html 데이터를 가져 오려고하지만 일부 사이트의 경우 파이썬에서 알 수없는 문자로 끝납니다.

답변

관련 문제