0
내가 파이썬 신문 사이트를 긁어 다양한 HTML 태그를 제거한 후 텍스트의 실제 이야기를 수집하는 데 사용하고
import urllib.request
from bs4 import BeautifulSoup
#targetURL = 'http://indianexpress.com/article/india/mamata-banerjee-army-deployment-nh-2-in-west-bengal-military-coup-4405871'
targetURL = "http://timesofindia.indiatimes.com/india/Congress-Twitter-hacking-Police-form-cyber-team-launch-probe/articleshow/55737598.cms"
#targetURL = 'http://www.telegraphindia.com/1161201/jsp/nation/story_122343.jsp#.WEDzfXV948o'
with urllib.request.urlopen(targetURL) as url:
html = url.read()
soup = BeautifulSoup(html,'lxml')
for el in soup.find_all("p"):
print (el.text)
을 다음과 같이
내 간단한 코드입니다
indianexpress.com URL 또는 telegraphindia.com URL에 액세스 할 때 코드는 정상적으로 작동하며 정크 텍스트가 아닌 순수 텍스트 형식의 이야기를 듣고 있습니다.
We have noticed that you have an ad blocker enabled which restricts ads served on the site.
Please disable to continue reading.
어떻게이 애드 블록 차단 우회를 얻고 페이지를 검색 할 수 있습니다 다음과 같이 timesofindia.com 사이트는 애드 블록 차단이 경우가 있습니다 그러나
는, 출력은? 어떤 제안에도 감사드립니다