2012-12-31 1 views
3

가능한 중복을 구문 분석 할 수있다 : 나는 XML 파일을 구문 분석 NSXMLParser을 사용하고 RSS 피드
Using an NSXMLParser to parse HTML는 NSXMLParser는 사용이 HTML을

. 내가 헷갈 렸던 것은 NSXMLParser이 xml만을위한 것인가 아니면 html을 파싱하는 데에도 사용할 수 있는지 여부이다. 인터넷에서 조금 검색하는 것부터, 나는 사람들이 html을 파싱하기 위해 그것을 사용한다고 가정하고있다.

그러나 NSXMLParser을 html로 사용하는 데있어 제한 사항이나 단점이 있습니까?

+0

(X) HTML은 XML이므로 잘 작동합니다. –

답변

4

HTML 문서가 잘 구성된 xhtml이면 제대로 작동합니다. 맞춰서, 현실 세계에서는 드물기 때문에 잘 형성된 xhtml로 작업하지 않을 것입니다.

HTML (HTML 4 및 5 포함)은 XML 형식이 아니며 XML 파서에 의해 성공적으로 구문 분석되지 않습니다.

은 다음 샘플을 고려 : 위의 문서에서

<HTML> 
<HEAD> 
<META http-equiv=content-type content="text/html; charset=UTF-8"> 
<TITLE>Sample Document</TITLE> 
</HEAD> 
<BODY> 
<H1>Sample Document</h1> 
<P>This document will <strong><em>fail</strong></em> as XML. 
</BODY> 
</HTML> 

을 콘텐츠 형식이 <P>가 종료 태그가없는, <H1></h1> 다른 경우이며, 따옴표 (<META http-equiv=content-type …)하지 않고, strongem은 올바르게 중첩되지 않습니다. 올바른 HTML이지만 잘못된 XML입니다.