2017-04-07 1 views
1

도움이 필요하십니까? 나는 Python의 Beautiful Soup를 사용하여 특정 Craigslist 게시물을 긁어 모으는 프로젝트를 진행하고 있습니다. 게시물 제목 내에 발견 된 이모티콘을 성공적으로 표시 할 수 있지만 게시물 본문 내에서 실패했습니다. 다른 변형을 시도했지만 지금까지 아무 것도 작동하지 않았습니다. 어떤 도움을 주시면 감사하겠습니다.아름다운 수프를 사용한 이모티콘 인코딩

코드 :

f = open("clcondensed.txt", "w") 
html2 = requests.get("https://raleigh.craigslist.org/wan/6078682335.html") 
soup = BeautifulSoup(html2.content,"html.parser") 
#Post Title 
title = soup.find(id="titletextonly")  
title1 = soup.title.string.encode("ascii","xmlcharrefreplace") 
f.write(title1) 
#Post Body 
body = soup.find(id="postingbody")   
body = str(body) 
body = body.encode("ascii","xmlcharrefreplace") 
f.write(body) 

오류가 몸에서 수신 된 :

'ascii' codec can't decode byte 0xef in position 273: ordinal not in range(128) 
+0

다음과 유사 할 수 있습니다. http://stackoverflow.com/questions/9644099/python-ascii-codec-cant-decode-byte – anonyXmous

답변

1

당신은 unicode

body = unicode(body) 

아름다운 수프 문서를 참조하십시오 사용해야합니다 NavigableString

,691,363 (210)

업데이트 : 빠른 답변

죄송합니다. 그렇지 않다.

html 파서가 NCR (Numeric Character Reference) 그림 이모티콘을 지원하지 않으므로 html 파서 대신 lxml 파서를 사용해야합니다. 내 테스트에서

때 65535보다 큰 NCR 이모티콘 진수 값 예 : HTML 데모 이모티콘 🚢로, HTML 파서는 u"\U0001F6A2"보다는 잘못된 유니 코드 \ufffd으로 디코딩. 이 경우 정확한 Beautiful Soup reference을 찾을 수 없지만 lxml 파서는 정상입니다.

import requests 
from bs4 import BeautifulSoup 
f = open("clcondensed.txt", "w") 
html = requests.get("https://raleigh.craigslist.org/wan/6078682335.html") 
soup = BeautifulSoup(html.content, "lxml") 
#Post Title 
title = soup.find(id="titletextonly") 
title = unicode(title) 
f.write(title.encode('utf-8')) 
#Post Body 
body = soup.find(id="postingbody") 
body = unicode(body) 
f.write(body.encode('utf-8')) 
f.close() 

당신은 더 많은 일을 할 수 lxml entity handling을 심판 할 수 있습니다

다음은 테스트 코드입니다.

lxml을 설치하지 않은 경우 lxml installing을 다시 입력하십시오.

희망 도움말.

+0

도움말 및 연결된 참조를 제공해 주셔서 감사합니다. 예상대로 일했습니다. 매우 감사! – Phil21

+0

@ Phil21 도움이 된 것을 기쁘게 생각합니다. – Fogmoon