내가 XmlSlurper 더러운 HTML 페이지를 구문 분석하고 사용시 문제가되는 라인을 찾아, 나는 다음과 같은 오류 얻는 방법 : 이제XmlSlurper
ERROR org.xml.sax.SAXParseException: Element type "scr" must be followed by either attribute specifications, ">" or "/>".
at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)
at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(Unknown Source)
...
[Fatal Error] :1157:22: Element type "scr" must be followed by either attribute specifications, ">" or "/>".
을, 나는 그것을 HTML을 공급하고 그렇게하기 전에 인쇄 한 . 내가 열어 1157 에러에서 언급 된 라인으로 가려고하면 거기에 'src'가 없다 (그러나 파일에는 수백 개의 문자열이있다). 그래서 몇 가지 추가 물건이 삽입 된 것 같아요 (어쩌면 <script>
또는 그와 비슷한 것) 그 라인 번호를 변경합니다.
문제가되는 라인이나 HTML 조각을 정확하게 찾을 수있는 좋은 방법이 있습니까?
"scr"이라는 오류가 표시되는데 "src"를 찾을 수 없다는 의미입니다. 오타가 되었습니까? 아니면 문서를 잘못 찾고 있습니까? –
NekoHTML을 발견 할 때까지 TagSoup를 사용하고있었습니다. 정확한 이유는 기억이 나지 않지만 TagSoup만으로는 해결할 수 없습니다. 여기 NekoHTML 사용 방법의 예를 볼 수 있습니다 - http://stackoverflow.com/questions/9260461/gpath-to-find-if-a-table-header-contains-a-matching-string. – Gaurav