웹 페이지 (이 경우 nytimes.com)에서 모든 기사 제목을 가져 오는 urllib 프로그램을 작성했습니다. 단 하나의 문제가 있습니다. 일부 제목에는 세미콜론이있어서 인쇄 할 경우 추한 "There \ xe2 \ x80 \ x99s"가됩니다. 그래서 \ xe2 \ x80 \ x99를 '로 대체하려고 시도했지만 작동하지 않는 것 같습니다. 나는 튜플 (Tuples)에 문제가 있다고 생각합니다. 불행히도 튜플을 만들 수 없으므로 동일한 문제가 발생합니다.Python3 : urllib로 얻은 데이터 편집하기
import urllib.request
import urllib.parse
import re
url = 'https://www.nytimes.com/'
headers = {}
headers['User-Agent'] = 'Mozilla/5.0 (X11; Linux i686)'
req = urllib.request.Request(url, headers = headers)
resp = urllib.request.urlopen(req)
resp_data = resp.read()
par = re.findall(r'story-heading"><a href="(.*?)">(.*?)</a>',str(resp_data))
for n in par:
print(n[1])
print(n[1].replace("\xe2\x80\x99","'"))
튜플에서 문자열 변수를 만들려고했지만 아무것도 작동하지 않습니다. 나는 BeautifulSoup와 함께 이것에 대한 또 다른 해결책이 있다는 것을 알고 있지만 나는 내 자신의 길을 찾으려고 노력할 것이라고 생각했습니다.
그것은 효과가있다. Tyvm :-) –
희망이 당신을 돕고 있습니다. 귀하가 필요로하는 것을 충족 시키면이 답변을 upvote 및/또는 수락 할 수 있습니다. –
감사합니다. 이 포럼의 새로운 내용 –