2010-08-04 1 views
3

평가판/nokogiri 및 xpath에 대한 html 링크에서 각 href 링크를 추출하려고합니다. 지금까지 내가 가진 것은 페이지 제목 만 빼는 것 같습니다. 나는 링크 제목에 관심이 없지만, 가리키고있는 URL에 관심이있다.평가 w/nokogiri 및 xpath에 대한 html 페이지에서 href 링크를 각각 추출하려고합니다.

doc = Nokogiri::HTML(open("http://www.cnn.com")) 
doc.xpath('//a').each do |node| 
    puts node.text 
end 

아무도 내가 대신 텍스트 자체의 실제 HREF를 당기는거야 있도록이 문제를 해결하는 방법에 나를 인도 할 수 : 여기

내가 가진 무엇인가?

답변

3

//의 XPATH가 모든 요소를 ​​되돌려 놓습니다. 어떤 텍스트 내용이 포함되어 있습니다. @attrname을 사용하여 속성에 액세스 할 수 있습니다. 예를

를 들어
//a/@href 

그것은 그를 삭제에 대한 감사를 작동하고

+0

문서에 당신에게 모든 a의 HREF를 얻을 것이다! – paradoxic