CDATA를 필터링하고 HTML에서 텍스트 만 가져 오는 방법은 무엇입니까?

2010-08-19 1 views 4 likes

Nokogiri를 사용하여 HTML 파일을 구문 분석하고 싶습니다. 나는 그것을 할 수 있지만 스크립트와 div 태그가 모두 파일에 있기 때문에 텍스트와 CDATA 또는 JavaScript 만 필요합니다.CDATA를 필터링하고 HTML에서 텍스트 만 가져 오는 방법은 무엇입니까?

2010-08-19 Ramil

을 수 선택 Nokogiri를 사용하여 얻으려는 데이터 및 보유한 데이터의 예를 보여주십시오. –

답변

당신은 모든 스크립트 요소를 삭제할 수 있습니다

doc.search('script').remove

... 그리고 모든 텍스트 요소

doc.xpath('//text()')

...를 선택하거나 당신 DIV 요소 내에서 텍스트 요소

doc.xpath('//div//text()')

2011-07-07 01:11:30 akuhn