4
Nokogiri를 사용하여 HTML 파일을 구문 분석하고 싶습니다. 나는 그것을 할 수 있지만 스크립트와 div 태그가 모두 파일에 있기 때문에 텍스트와 CDATA 또는 JavaScript 만 필요합니다.CDATA를 필터링하고 HTML에서 텍스트 만 가져 오는 방법은 무엇입니까?
Nokogiri를 사용하여 HTML 파일을 구문 분석하고 싶습니다. 나는 그것을 할 수 있지만 스크립트와 div 태그가 모두 파일에 있기 때문에 텍스트와 CDATA 또는 JavaScript 만 필요합니다.CDATA를 필터링하고 HTML에서 텍스트 만 가져 오는 방법은 무엇입니까?
,
doc.search('script').remove
... 그리고 모든 텍스트 요소
doc.xpath('//text()')
...를 선택하거나 당신 DIV 요소 내에서 텍스트 요소
doc.xpath('//div//text()')
을 수 선택 Nokogiri를 사용하여 얻으려는 데이터 및 보유한 데이터의 예를 보여주십시오. –