루비 보석을 사용하여 브라우저에 지정된 HTML 페이지가 표시되면 사용자에게 표시되는 모든 텍스트를 가져와야합니다. 이제 Mechanize 및 Nokogiri를 사용하여 웹 사이트의 데이터를 스크랩했지만 사용자에게 표시되는 단어 나 텍스트가 필요합니다. 이 작업을 수행하는 데 사용할 수있는 보석 또는 방법을 언급하십시오.
Nokogiri를 Rails와 함께 사용하고 있습니다. 5. 테이블 행에서 "th"요소 또는 "td"요소를 선택하려면 어떻게해야합니까? 내 목표는 셀의 모든 텍스트를 연속으로 가져 오는 것입니다 (좀 더 일반적인, 우아한 솔루션이 있다면, 모두 들어 있습니다). 여기다시피 내가 text_all_rows = all_rows.map do |row|
나는 "8월 Allebéplein"와 같은 거리 이름 입력이 있고, 노코 기리 사용하여 XML을 만드는 오전 :는 builder = Nokogiri::XML::Builder.new do |xml|
xml.Street 'August Allebéplein'
end
결과는 다음과 같습니다 <Street>August Allebéplein</Stre
Nokogiri를 사용하고 있습니다. 다음 코드는 아포스트로피를 표준 코드로 바꿉니다. def replace_apostrophe(nokogiri_xml_doc)
nokogiri_xml_doc.xpath('//text()').each {|node| node.content = node.content.gsub(/\b'|’|‛|⸂|⸄|⸌|⸜\b/, "'"
nokogiri를 사용하여 웹 사이트를 고치고 있습니다. 이 특정 웹 사이트는 절대 URL을 다르게 처리합니다. 무슨 일 나는이 page = Nokogiri::HTML(open(link, :allow_redirections => :all)) 처럼에게 URL을주고는 https 버전으로 리디렉션됩니다, 그것은 또한 URL의 긴 버전으로 재 것이다. 이 괜찮하고
나는 아래와 같이 쓰여진 aws-lambda 기능이 있고 html 내용을 돌려 보낸다. 수입 urllib2가 수입 JSON은 def lambda_handler(event, context):
# TODO implement
req_url = event['url']
header = {"User-Agent" : 'Mozilla/5.0'
현재 웹 사이트 크롤러를 만들고 있습니다. 목표는 첫 번째 열에 이름이 있고 두 번째 이미지에는 Ruby가 삽입 된 이미지입니다. 스크립트를 CSV#open 방법을 사용하십시오. 이미이 방법을 사용했지만 잘 모르겠지만 이미지를 열에 삽입하는 것이 문제라는 정보는 찾지 못했습니다. 정말 가능합니까? 그렇지 않다면 어떤 기능을 사용하여 크롤링 후 string
이 질문을하기 전에 해결책을 모색했지만 불행히도 좋은 결과를 얻지 못했습니다. 또한 시도 require 'open-uri'
doc = Nokogiri::HTML(open("http://streeteasy.com"))
#=> OpenURI::HTTPError: 405 Not Allowed
from /Users/cyrusghazanfar/.rvm
일반적으로 Nokogiri를 XML 파서로 사용합니다. 어떻게 필터링 할 <aldo_nova album="aldo nova">
<release_date value="19820401"/>
</aldo_nova>
<engligh_beat album="I Just Can't Stop It"/>
<release_date value="19800
Ruby를 사용하여 XML 파일을 구문 분석하려고합니다. 그것은 성공적으로 구문 분석하지만 내가 그것을 인쇄 할 것을 인쇄되지 않습니다이 require 'rubygems'
require 'nokogiri'
def parseXML(filename)
page = Nokogiri::XML(open(filename))
puts page.cl