2014-04-18 1 views
0

JTidy을 사용하여 .html 웹 페이지를 .xml 파일로 변환하려고하는데 .xml 파일에서 일부 데이터/앵커 요소를 추출해야합니다. 그러나 변환 단계를 수행 할 때 항상 오류 파일이 발생하고 Warning: unknown attributeWarning: <title> isn't allowed in <body> elements (생성 된 오류 파일의 경고)이 표시됩니다..htm 파일을 .xml 파일로 구문 분석

private String url; 
private String outFileName; 
private String errOutFileName; 

public Test(String url, String outFileName, String errOutFileName) { 
    this.url = url; 
    this.outFileName = outFileName; 
    this.errOutFileName = errOutFileName; 
} 
public void convert() { 
    URL u; 
    BufferedInputStream in; 
    FileOutputStream out; 

    Tidy tidy = new Tidy(); 

    tidy.setXmlOut(true); 

    try { 
     //Set file for error messages 
     tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true)); 
     u = new URL(url); 

     //input and output streams 
     in = new BufferedInputStream(u.openStream()); 
     out = new FileOutputStream(outFileName); 

     //Convert files 
     tidy.parse(in, out); 

     in.close(); 
     out.close(); 

    } catch (IOException e) { 
     System.out.println(this.toString() + e.toString()); 
    } 
} 

public static void main(String[] args) { 
    // Test(url address, correctOutput file directory, errorOuput file) 
    Test t = new Test("here is the http.....", "e:/...../correctOutput.xml", "e:/...../errorOutput.xml"); 
    t.convert(); 
} 

도움을 주셔서 감사합니다. 더 좋은 방법이 있습니까? 자세한 코드를 제공하면 정말로 감사하겠습니다.

+1

소리 변환하는 XSLT를 사용할 수 있습니다. – clcto

답변