JTidy
을 사용하여 .html 웹 페이지를 .xml 파일로 변환하려고하는데 .xml 파일에서 일부 데이터/앵커 요소를 추출해야합니다. 그러나 변환 단계를 수행 할 때 항상 오류 파일이 발생하고 Warning: unknown attribute
및 Warning: <title> isn't allowed in <body> elements
(생성 된 오류 파일의 경고)이 표시됩니다..htm 파일을 .xml 파일로 구문 분석
private String url;
private String outFileName;
private String errOutFileName;
public Test(String url, String outFileName, String errOutFileName) {
this.url = url;
this.outFileName = outFileName;
this.errOutFileName = errOutFileName;
}
public void convert() {
URL u;
BufferedInputStream in;
FileOutputStream out;
Tidy tidy = new Tidy();
tidy.setXmlOut(true);
try {
//Set file for error messages
tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));
u = new URL(url);
//input and output streams
in = new BufferedInputStream(u.openStream());
out = new FileOutputStream(outFileName);
//Convert files
tidy.parse(in, out);
in.close();
out.close();
} catch (IOException e) {
System.out.println(this.toString() + e.toString());
}
}
public static void main(String[] args) {
// Test(url address, correctOutput file directory, errorOuput file)
Test t = new Test("here is the http.....", "e:/...../correctOutput.xml", "e:/...../errorOutput.xml");
t.convert();
}
도움을 주셔서 감사합니다. 더 좋은 방법이 있습니까? 자세한 코드를 제공하면 정말로 감사하겠습니다.
소리 변환하는 XSLT를 사용할 수 있습니다. – clcto