cyberneko

0열

1답변

NekoHTML을 사용하여 HTML을 정리 한 다음 XOM으로 가져 와서 개체 모델을 얻습니다. 이 과정에서 어딘가에 코멘트가 빠져 나옵니다. 여기 // XOMSafeSAXParser is the Neko SAXParser extended to allow // XOM to set the (unnecessary in this case) features /

0열

1답변

cyberneko html 설정에서 인코딩되지 않은 크고 작은 기호를 무시합니다.

큰 기호와 작은 기호가 포함 된 htmlcontent가 있습니다. 그러나 그 기호는 & lt으로 인코딩되지 않습니다. 및 & gt; 콘텐츠의 태그를 조정하기 위해 cyberneko html 파서를 통해 콘텐츠를 전달합니다. 사이의 내용을 파싱 한 후 기호보다 크거나 작은 기호를 구분합니다. 이 문제를 극복하기 위해 cyberneko html 파서에서 설정해

0열

1답변

CyberNeko를 사용하여 html 콘텐츠를 얻는 방법은 무엇입니까?

def page = new XmlSlurper(new SAXParser()).parse(url) println page.body[0] 내가 원하는 출력을 내 HTML은 <body> <h1>Header</h1> </body> : <html> <head> <title>Title</title> </head>

0열

1답변

XmlUtil.serialize : 대문자

의 출력 태그 나는 String content = getContent() def parser = new org.cyberneko.html.parsers.SAXParser() parser.setFeature('http://xml.org/sax/features/namespaces', false) def slurper = new Xml

0열

1답변

XmlSlurper/NekoHTML 문서 조각 파싱 - HTML 또는 BODY 태그가 필요 없음

친애하는 모든 사람이 다음 HTML 조각을 구문 분석하려고합니다. HTML 및 BODY 태그가없는 출력과 동일한 조각을 얻고 싶습니다. 이것이 가능한가? 그렇다면 어떻게? 는 추신 당신에게 미샤 감사 나는 여기에서 읽고있다 : http://nekohtml.sourceforge.net/faq.html#fragments 나는 정확한 옵션을 아래에 추가했다고 생

2열

1답변

혼합 유형 청소 <script> 태그

cyberneko 및 xerces를 사용하여 HTML을 치료하고 있습니다. ! 주어진 <script..../> <div> Some Text </div> <script> scripting stuff </script> , 네코 스크립트로 위의 모든 라인을 구문 분석, 그래서 나는를 얻을 그러나 , 일부 $ # @@ @@ 웹 사이트가 여전히 사용 모두 <sc

0열

1답변

그루비 : CyberNeko | 사용자 에이전트 | 브라우저 버전

저는 현재 웹 사이트에서 원하는 정보를 얻기 위해 CyberNeko를 사용하고 있습니다. 그러나, 나는 웹 사이트가 사용자 에이전트/브라우저 버전을 검사하여 URL 컨텐트를 잡는 것을 막을 것이라고 생각한다. htmlunit을 사용하여 브라우저 버전을 변경하는 것에 대해 알고 있지만 CyberNeko를 사용하여이 문제를 해결할 수 있는지 확실하지 않습니다.

0열

1답변

SAX 및 Cyberneko를 사용하여 XML 주석 처리 - DOM 순서로

cyberneko을 사용하여 html 문서를 정리하고 처리합니다. 원본 HTML 문서에서 발생하는 모든 설명을 처리 할 수 있어야합니다. 나는과 같이 주석을 처리 할 수있는 cyberneko 색소폰 파서를 구성한 : 나는 DOM 이벤트입니다 같은 소비자를 사용 parser.setProperty("http://xml.org/sax/properties/le