Google 검색 결과 페이지의 전체 HTML이 있다고 가정합니다. 누구든지 Google 검색 결과의 첫 페이지를 긁거나 파싱 할 수있는 기존 코드 (Ruby?)를 알고 있습니까? 이상적으로는 어디서나 볼 수있는 쇼핑 결과 및 비디오 결과 섹션을 처리하는 것이 이상적입니다.Ruby에서 Google 검색 결과 스크래핑/파싱
그렇지 않은 경우 일반적으로 스크린 스크랩을위한 최상의 Ruby 기반 도구는 무엇입니까?
명확히하기 : Google 검색 결과를 프로그래밍 방식으로/API별로 얻는 것은 어렵거나 불가능하며 단순히 결과 페이지를 CURLing하면 많은 문제가 있음을 알고 있습니다. 여기에 stackoverflow에 대한 두 가지 점에 대한 요약이 있습니다. 제 질문은 다릅니다.
Google 순위 검사기 (http://google-rank-checker.squabbel.com)를 살펴 보시기 바랍니다. 루비가 아니라 PHP로 작성되었습니다. 그러나 그것은 오픈 소스이며 필요한 모든 작업을 해결합니다. 실제로 루비에서 수정하지 않은 것 같아요. 많은 프로덕션 환경 (프로덕션 환경에서도)에서 개인적으로 PHP (콘솔 스크립트)를 사용했습니다. 어쨌든 루비로 작성한 경우에도 Google 스크랩을하면 지연 (지연, IP, DOM 구문 분석, 올바른 GET 매개 변수 보내기 등)을 할 때 PHP 코드가 유용 할 수 있습니다. – John