2017-04-19 9 views
1

나는 다음 시도했다 :파이썬 3으로 기사 사이트의 텍스트 내용을 어떻게 추출합니까?

import urllib 

link = 'https://automatetheboringstuff.com/chapter7/' 
f = urllib.request.urlopen(link) 
myfile = f.read() 
print(myfile) 

하지만 그건 그냥 텍스트 내용보다는 페이지의 소스를 반환하는 것 같다.

+1

당신은 그 –

+0

에 대한'BeautifulSoup' 필요는 올바른'urllib.request.urlopen (링크)'있습니까? – bhansa

답변

1

챕터 텍스트 만보고 싶다면 아름다운 스프가 선택입니다. 귀하의 경우에는

:

import requests 
from bs4 import BeautifulSoup 

res = requests.get('https://automatetheboringstuff.com/chapter7/') 
soup = BeautifulSoup(res.text, 'html.parser') 
print(soup.find('div', { "class" : "book" }).text)