Q

Google 검색 결과 페이지에서 전체 HTML 콘텐츠를 얻는 방법

2017-04-18 11 views 0 likes

0

나는 웹 크롤링을 처음 사용하는데 도움을 주셔서 감사합니다. 수행해야 할 작업은 Google 검색에서 반환 된 전체 HTTP 응답을 얻는 것입니다. 나는 웹의이 부분을 추출해야Google 검색 결과 페이지에서 전체 HTML 콘텐츠를 얻는 방법

(XXXX는 검색 단어입니다) XXXX 관련

검색 : 브라우저의 검색 키워드를 구글에서 검색하면, 반환 된 페이지, 섹션이 페이지. 내 연구에서 현재 Google 크롤링 패키지의 대부분은이 정보 섹션을 추출 할 수 없습니다. 나는 다음과 같은 코드로, urllib2를 사용하려고 :

import urllib2 
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187" 
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'}) 
con = urllib2.urlopen(req) 
strs = con.read() 
print strs

내가 합법적 인 HTTP 응답처럼 보이는 텍스트의 큰 덩어리를 얻고 있지만, 텍스트 내에서, "내 검색 키에 관련된 내용이없는 국제 비즈니스 기계 ". Google이 아마도 실제 브라우저의 요청이 아니라는 사실을 알고 있으므로이 정보를 숨길 것입니다. 이 방법을 무시하고 Google 검색 결과의 '관련 검색'섹션을 얻은 경우 알 수 있습니까? 감사.

2017-04-18 user1750197

+0

http://stackoverflow.com/questions/38619478/google-search-web-scraping-with-python; 이 솔루션을 시도하십시오 – anonyXmous

+0

@anonyXmous. 고마워. 단순하고 매력처럼 작동합니다. 트릭을 사용하는 것입니다 : from request 가져 오기 get – user1750197

A

답변

0

은 @anonyXmous에 의해 지적되었다. 참조 할 수있는 유용한 게시물은 여기에 있습니다 :

Google Search Web Scraping with Python

from requests import get 
keyword = "internation business machine" 
url = "https://google.com/search?q="+keyword 
raw = get(url).text 
print raw

와 나는 "원시"에 필요한 텍스트를 얻을 수 있어요

2017-04-18 06:38:05 user1750197