2017-12-20 15 views
0

나는이 질문의 버전을 묻는 질문을하고 며칠 전 여러 가지 전략을 시도했다.차단되지 않고 Google 검색에서 Python을 사용하여 모든 URL 결과를 긁을 수 있습니까?

내가 원하는 것은 Python을 사용하여 큰 스크립트 (주로 뉴스 사이트)의 텍스트 분석을 수행하는 별도의 스크립트에서 사용할 수있는 Google 검색의 모든 URL을 다듬는 것입니다. 이것은 비교적 간단하지만, 시도한 시도 중 어느 것도 제대로 작동하지 않았습니다. 내가 가진으로

이 가까운 거리 : 나는 쫓겨 도착하기 전에

from google import search 

for url in search('site:cbc.ca "kinder morgan" and "trans mountain" and protest*', stop=100): 
    print(url) 

이 약 300 URL을 반환. 이 매개 변수를 사용하는 실제 검색은 약 1000 개의 결과를 제공하며 나는 이들 모두를 원합니다.

우선 : 가능합니까? 둘째 : 누구든지이 작업을 수행 할 제안이 있습니까? 기본적으로 다른 스크립트에서 사용할 수있는 모든 URL의 txt 파일 만 필요합니다.

답변

0

이 패키지는 화면 스크래핑을 사용하여 Google에서 검색 결과를 검색하는 것으로 보입니다. 따라서 Google 서비스 약관에 위배되는 이유가 될 수 있습니다.

관련 조항

Google's Terms of Service에 :

는 우리의 서비스를 오용하지 마십시오. 예를 들어, 우리의 서비스를 방해하지 않거나 당사가 제공하는 인터페이스 및 지침 이외의 방법을 사용하여 서비스에 액세스하려고 시도하지 마십시오. 해당 수출 및 재수출 통제 법규를 포함하여 법이 허용하는 경우에만 서비스를 이용할 수 있습니다. 귀하가 약관이나 정책을 준수하지 않거나 의심되는 부정 행위를 조사하는 경우 당사는 귀하에게 서비스 제공을 중단하거나 중단 할 수 있습니다.

나는 정확한 숫자를 찾을 수 없었지만, 하루에도 검색 쿼리 수에 대한 제한이 너무 엄격한 것 같습니다. JSON Custom Search API 문서에서 하루 100 건의 검색어 here.

그럼에도 불구하고, 그들이 작동하는지 다른 대안을 시도 아무런 해가 없습니다 더 나은 :

  1. BeautifulSoup
  2. Scrapy
  3. ParseHub -이 하나의 코드가 아니라 유용한 조각 좋은 문서와 소프트웨어의. how to scrape a list of URLs에 대한 자습서 링크