2011-05-06 4 views
9

Python에서 Scrapy가하는 것과 비슷한 것을 얻을 수있는 Ruby 기반 도구는 무엇입니까? http://doc.scrapy.org/intro/overview.htmlRuby 대신 Scrapy를 사용 하시겠습니까?

+2

을 확인할 수 있습니다. 훌륭한 문서와 매우 친숙한 API가있는 것 같습니다. 루비가 파이썬을 사용하는 것에 익숙하다면 아마 하루나 이틀 이상 걸리지 않을 것입니다. 그들은 매우 유사한 언어입니다. – zeekay

+0

@ zeekay, [scrappy]를 의미합니까 (http://rubydoc.info/gems/scrappy/0.3.5/frames)? – Zabba

+1

아니요, 그는 루비 대안 인 scrapy에 대해 물었습니다. 웹 사이트를 크롤링하고 구조화 된 데이터를 추출하기위한 Python 응용 프로그램 프레임 워크입니다. 나는 파이썬을 배우는 것이 쉽다는 것을 지적하고 있었고, 단지 그것을 사용하는 것만으로도 만족스런 대안을 찾을 수 없다고 가정했다. – zeekay

답변

11

Nokogiri를 기반으로 만들어진 Mechanize이 있습니다.

XPath를 기반으로하는 Nokigiri이 있습니다.

Hpricot은 다른 도구입니다.

Scrapi은 정보를 추출하는 CSS 선택기를 기반으로하지만 테스트 결과에 따라 느리게 실행됩니다.

여기에 scRUBYt이 있습니다.

나는 다른 것들도있을 것이라고 확신하지만, 이것들은 내가 만났던 것들이다.

문제를 해결하는 도구가 하나도 없으면 Anemone과 같은 웹 스파이더 라이브러리를 체크 아웃하고 위에 나열된 하위 수준의 스크래핑 프레임 워크 중 하나와 결합하십시오.

아니면 그냥 파이썬을 배우십시오. 그것은 프로그래밍 세계에서 당신의 업을 확장 할 것입니다.

+2

내가 알 수있는 한 (나는 Ruby에 대해 모른다), 그 모듈은 HTML/XML 파서이며, Scrapy와 같은 프레임 워크를 고수하지 않는다. . – Acorn

+1

@Acorn - 이것들은 모두 스크래핑 프레임 워크입니다. 그들이 갖고 있지 않은 것은 크롤러 또는 거미입니다. 스크래핑은 크롤링과 직각입니다. – Anurag

+5

하지만 크롤링은 Scrapy의 한 가지 측면에 불과합니다. 결과를 저장하기위한 항목 및 파이프 라인과 같은 모든 종류의 스크래핑에 적용되는 많은 기능이 있습니다. 링크 된 도구는 Scx보다는 lxml 또는 BeautifulSoup와 비슷합니다. – Acorn

4

당신은 또한 당신은 단지 scrapy에게 주사를 할 수 있습니다 Anemone