bs4로 phyton에서 텍스트를 긁어 모으는 법

URL 페이지의 모든 주석을 긁어서 텍스트를 txt 파일 (1 개의 주석 = 1 개의 txt)에 저장합니다. 코멘트의 텍스트에 이모티가있을 때 문제가 있습니다. 사실, 프로그램이 멈추고 "UnicodeEncodeError : 'charmap'코덱이 문자를 인코딩 할 수 없다고 말합니다. 이 문제를 어떻게 해결할 수 있습니까?bs4로 phyton에서 텍스트를 긁어 모으는 법

코드의 구조를 (내가 BS4를 사용하고있어)이 같다 : 모든 사람에게

q=requests.get(url) 
soup=BeautifulSoup(q.content, "html.parser") 
x=soup.find("a", {"class":"comments"}) 
y=x.find_all("div", {"class":"blabla"}) 
i=0 
for item in y: 
    name=str(i) 
    comment=item.find_all("p") 
    out_file=open('%s.txt'%CreatorName, "w")   
    out_file.write(str(comment) 
    out_file.close 
    i=i+1

감사합니다.

출처

2017-11-24 SerpeVerde

out_file = open ('% s.txt'% name, "w") – SerpeVerde

내 생각 엔 당신이 Windows에있는 것 같습니다. 코드는 Linux에서 완벽하게 작동합니다. 이모티콘 메모장에 제대로 표시되지 않을 수 있지만

out_file=open('%s.txt'%CreatorName, "w", encoding='utf-8')

이 항상 파이어 폭스 나 다른 응용 프로그램에서 열 수 있습니다 오류없이 파일을 작성해야 : 그래서 당신은 다음과 같이 UTF-8로 열 파일의 인코딩을 변경 당신이 이모티콘을보고 싶다면. 다른 메모 텍스트는 메모장에서 읽을 수 있어야합니다.

출처

2017-11-24 21:13:42

bs4로 phyton에서 텍스트를 긁어 모으는 법

답변

관련 문제