2012-07-09 6 views
1

HtmlAgilityPack 및 Tidy를 제외한 어떤 라이브러리를 조언 할 수 있습니까?HTML XHTML 호환 라이브러리

HTML 콘텐츠에 XPath 쿼리를 적용하려면 콘솔 프로그램으로 Tidy를 사용하여 C# XmlDocument 또는 Html Agility Pack을 얻을 수 있습니다. 이 두 libs와는 구식이되어 - HAP가도 다음 트릭 적용 후 태그를 닫아 문서 구조를 수정하지 않았기 때문에 내가 HAP을 사용하여 나쁜 경험이 2008 년부터 월 - 2010 년과 단정 한 이후 변경되지 않았습니다 : 일반적으로

public static HtmlDocument MakeEmptyDocument() 
{ 
    HtmlDocument doc = new HtmlDocument(); 
    doc.OptionAutoCloseOnEnd = true; 
    doc.OptionFixNestedTags = true; 
    doc.OptionOutputAsXml = true; 
    doc.OptionWriteEmptyNodes = true; 
    return doc; 
} 

public static HtmlDocument LoadHtmlDocumentFromString(string content) 
{ 
    HtmlDocument doc = MakeEmptyDocument(); 
    doc.LoadHtml(content); 
    StringBuilder sb = new StringBuilder(); 
    using (StringWriter sw = new StringWriter(sb)) 
     doc.Save(sw); 

    using (StringReader sw = new StringReader(sb.ToString())) 
     doc.Load(sw); 
    return doc; 
} 

을 나는 Tidy를 선호했지만 지금은 아주 단순한 문서를 완전히 깨뜨리고 BIG 콘텐츠 부분을 제거합니다. .NET에서 사용할 수있는 대안이 필요해 보입니다.

답변

0

Tidy 프로젝트는 HTACG (HTML Tidy Advocacy Community Group)에 의해 인계되었으며 이제는 2015 년 말에 tidy5라는 라이브러리를 제공합니다.이 인터페이스는 "많은 수의 프로그래밍 언어". 다음을 참조하십시오.

HTML Tidy Project (Developers Section)