2009-04-01 7 views
2

잘못된 HTML 코드에서 깨끗한 XML 트리 (이상적으로 System.Xml.XmlDocument)를 생성 할 수있는 .NET 라이브러리를 찾고 있습니다. I.E. 이 상황에 직면했을 때 최선의 노력으로 추측, 수리 및 대체 브라우저를 수행하고 XmlDocument를 생성해야합니다. 도서관도 잘 관리되어야합니다. :)HTML 태그 스프에서 .NET XmlDocument를 생성하는 라이브러리

나는 이것이 많이 (너무 많습니까?) 물어볼 수 있다는 것을 알고 있으며, 나는 유용한 단서를 고맙게 생각합니다. 이 자바에 대한 구현은 상당히 많지만 내 바인딩을 생성하지는 않습니다. 지금까지 .NET의 경우 http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnethttp://sourceforge.net/projects/tidyfornet을 발견했습니다.

아직 작성하지 않았거나 테스트 한 적이 없지만 희소 한 (희소 한) 문서와 희귀 한 업데이트로 인해 내가 원하는 것을 보이지 않습니다. 그렇다면이 선택들 중에서, 또는 과거의 경험으로부터 당신은 어떤 권고를 가지고 있습니까?

답변

8

HTML Agility Pack의 등급이 높습니다. 구문 분석/최선의 추측 등을 확실히 수행합니다.

이 모델은 질의를 위해 SelectNodes 등을 비롯하여 XmlDocument와 본질적으로 유사합니다.

xhtml 출력이 필요한 경우 OptionOutputAsXml 플래그가 있습니다. 나는 이것을 true로 설정하고 Save을 호출하면 xhtml이된다고 가정합니다.

+0

감사합니다. 지금까지는 매우 견고 해 보였습니다. 컴파일하기 위해 몇 가지 조정을해야했지만 실제 문서는 없었습니다. –

+0

나는 파싱 코드를 완성했으며, 여전히 훌륭한 라이브러리라고 생각한다. 팁 주셔서 감사합니다. 약간 이상한 점은 엔티티를 자동으로 확장 할 수있는 옵션이없는 것입니다 (예 :). DeEntitize를 수동으로 호출해야합니다. 운 좋게, 나는 단지 1 개의 노드에 이것을 필요로했다. –