2014-07-18 5 views
1

xml 파일 정리 예기치 않은 결과가 발생했습니다. tagsoup이 상위 태그를 너무 빨리 닫는 속성을 고아로 추가했습니다. 또한 부모 태그의 이름을 줄입니다. tagsoup 전에tagsoup이 좋은 xml을 깨뜨림

:

<Objects> 
    <Object> 
     <ObjectID>240</ObjectID> 
     [...] 
     <Status>Not Ready</Status> 
     <Title>Some description which includes word/word, 22,000</Title> 
     <Url>http://example.com/withquerystring?id=240&amp;other=1&amp;url=http%3A%2F%2Fredirected.example.com%2F40</Url> 
     [...] 
     <Owner> 
     <Name>JOHN MARSHALL, MR</Name> 
     </Owner> 
    </Object> 
    <Object> 
     <ObjectID>122</ObjectID> 
     [...] 

tagsoup 후 : 내가 자바 6 사용하고

import org.ccil.cowan.tagsoup.Parser; 
import org.ccil.cowan.tagsoup.XMLWriter; 
import org.xml.sax.InputSource; 
import org.xml.sax.SAXException; 
import org.xml.sax.XMLReader; 

:이 라이브러리를 사용하는 자바 프로젝트에있어

<Objects> 
    <object> 
     <ObjectID>240</ObjectID> 
     [...] 
     <Status>Not Ready</Status> 
    </object> 
    <Title>Some description which includes word/word, 22,000</Title> 
    <Url>http://example.com/withquerystring?id=240&amp;other=1&amp;url=http%3A%2F%2Fredirected.example.com%2F40</Url> 
    [...] 
    <Owner> 
     <Name>JOHN MARSHALL, MR</Name> 
    </Owner> 
    <object> 
     <ObjectID>122</ObjectID> 
     [...] 

.

그대를위한 모든 단서 티?
유효한 XML 파일의 원하는 출력은 (구조체가 아닌 세부 정보 만 변경하는 것일 수도 있음), 그렇지 않습니까?

답변

0

Tagsoup는 HTML 구문 분석기로 사용되며 열악한 HTML을 정리합니다. HTML tagsoup로 정의 된 태그 이름의 경우 어떤 요소가 다른 요소 내부에서 허용되는지를 알고 있으며 잘못 중첩 된 요소를 시도하고 수정합니다. 또한 HTML과 달리 XML과 달리 태그 이름은 대소 문자를 구분하지 않습니다. 이 것이 경우

objecttitle가 HTML에서 (각각 어떤 종류의 포함 된 개체 및 페이지의 제목)을 의미해야하는지 알고 있다는 것을 결정하고, 그것은 titleobject 내에서 허용되지 않는 것을 알고있다 . 그러나 ObjectIDStatus은 알려진 HTML 요소 이름이 아니므로 의심의 이익을 제공하고 혼자 남겨 둡니다.