나는 웹 크롤링을 처음 사용하는데 도움을 주셔서 감사합니다. 수행해야 할 작업은 Google 검색에서 반환 된 전체 HTTP 응답을 얻는 것입니다. 나는 웹의이 부분을 추출해야Google 검색 결과 페이지에서 전체 HTML 콘텐츠를 얻는 방법
(XXXX는 검색 단어입니다) XXXX 관련
검색 : 브라우저의 검색 키워드를 구글에서 검색하면, 반환 된 페이지, 섹션이 페이지. 내 연구에서 현재 Google 크롤링 패키지의 대부분은이 정보 섹션을 추출 할 수 없습니다. 나는 다음과 같은 코드로, urllib2를 사용하려고 :
import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen(req)
strs = con.read()
print strs
내가 합법적 인 HTTP 응답처럼 보이는 텍스트의 큰 덩어리를 얻고 있지만, 텍스트 내에서, "내 검색 키에 관련된 내용이없는 국제 비즈니스 기계 ". Google이 아마도 실제 브라우저의 요청이 아니라는 사실을 알고 있으므로이 정보를 숨길 것입니다. 이 방법을 무시하고 Google 검색 결과의 '관련 검색'섹션을 얻은 경우 알 수 있습니까? 감사.
http://stackoverflow.com/questions/38619478/google-search-web-scraping-with-python; 이 솔루션을 시도하십시오 – anonyXmous
@anonyXmous. 고마워. 단순하고 매력처럼 작동합니다. 트릭을 사용하는 것입니다 : from request 가져 오기 get – user1750197