http://www.nfl.com/scores에서 정보를 긁어 내려고하고 있습니다. 특히 게임이 끝나면 컴퓨터에서 기록을 중지 할 수 있습니다. 나는 충분히 쉽게 HTML을 다운로드 할 수 있으며, 표준 준수에 대한 이러한 주장한다 :준수하지 않는 HTML을 수정하여 Expat에서 구문 분석을 수행하는 방법 (htmltidy 작동하지 않음)
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
그러나
Expat 그것을 구문 분석하는 시도가 오류
not well-formed (invalid token)
을 생산하고 있습니다.W3C's online validation service은 오류 및 121 경고를보고합니다.
- 은 내가
-xml
옵션을 내 리눅스 시스템에서 (단지tidy
이라고) 단정 한 HTML을 실행하려고했으나 깔끔한 보고서 (56) 경고 및 117 오류 및 좋은 XML 파일을 복구 할 수 없습니다. 오류는 다음과 같이 :line 409 column 122 - Warning: unescaped & or unknown entity "&role" ... line 409 column 172 - Warning: unescaped & or unknown entity "&tabSeq" ... line 1208 column 65 - Error: unexpected </td> in <br> line 1209 column 57 - Error: unexpected </tr> in <br> line 1210 column 49 - Error: unexpected </table> in <br>
하지만 입력을 체크하면, "알 수없는 실체"는 적절하게 인용 된 URL의 일부로 표시되므로 이중 인용 부호 어딘가에 또는 어떤 누락 된 경우 나도 몰라 .
나는이 물건을 구문 분석 할 수 밖에 뭔가이 있다는 것을 알고 파이어 폭스와 합리적인 w3m 디스플레이 뭔가 모두 때문이다. 비 호환 HTML을 수정하여 Expat로 구문 분석 할 수있는 도구는 무엇입니까?
wwf는 Expat? 해외에 살고있는 사람? – JohnIdol
w3c 유효성 검사 서비스를 사용해 보셨습니까? -> http://validator.w3.org/#validate_by_input – JohnIdol
Expat는 XML 구문 분석 라이브러리입니다. –