2017-11-07 3 views
-3

웹 페이지의 핵심 텍스트를 가져 오는 데 사용할 수있는 모듈이 있습니까? 뭔가 머리글/메뉴/소셜 링크가 삭제됩니까?파이썬에서 웹 페이지의 핵심 텍스트 스크랩

고맙습니다.

+0

'요청'을 사용해보세요. BTW는 먼저 인터넷 검색을 시도합니다. –

답변

0

사이트마다 사이트마다 차이가 있다고 생각합니다. 모든 웹 사이트는 다른 구조를 가지고 있기 때문에 표준 추출기를 사용할 수 없습니다. 웹 페이지의 특정 부분을 추출하려면 다음과 같이하십시오.

from urllib2 import urlopen 
from scrapy.http import HtmlResponse 

url = "some_website_you_want_to_crawl" 
url_response = urlopen(url) 
resp = HtmlResponse(url=url, body=url_response.read()) 
core_text = resp.xpath('xpath_to_core_text').extract()[0]