HTML 페이지를 다운로드 한 다음 일부 정보를 선택하여 다른 파일에 쓰는 프로그램을 작성 중입니다.HTML에서 텍스트 추출 Java
단락 태그 사이에있는 정보를 추출하고 싶지만 한 단락 만 가져올 수 있습니다. 내 코드는 다음과 같습니다.
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
내가 선 말함으로써 </p>
태그를 포함 할 때까지 파일에 기록 유지하기 위해 프로그램을 말할 것 또 다른 while 루프를 추가하려고했다;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
그러나 이것은 작동하지 않습니다. 누군가 도움을 청할 수 있습니까?
SO가 HTML 태그를 이스케이프 처리하는 중 버그가 표시됩니다. – Yishai
백틱으로 코드로 인용하고 있습니까? – pjp
HTML 파서가 존재하며 그 중 많은 수가 있습니다. –