JTidy로 XHTML DOM 구문 분석을하려고하는데, 직관적이지 않은 것으로 보입니다. 내가 그의 인스턴스를 얻어야한다 어디 Node Tidy.parse(Reader, Writer)
그리고 얻을 수있는 < 몸/그 노드의 >는, 나는 가정, 내가 Node Node.findBody(TagTable)
를 사용한다 : 특히, HTML 구문 분석하는 방법있
.net 웹 응용 프로그램에서 저는 html을 제공하는 타사 CMS API에 대해 이야기합니다. 잘 구성된 XML로 변환해야하므로 HTML 깔끔한 .NET 래퍼를 사용합니다. 이것은 좋은 DOM을 생성하지만, 과 같은 문자가 사용될 때 상황이 잘못 될 수 있습니다. XmlDocument가이를 받아들이려면 과 같은 코드 형식으로 변환해야
잘못된 단어 (예 : Microsoft Word에서 복사 한 내용)을 받아 들일 수있는 Perl 모듈이 있습니까? 형식의 HTML으로 구문 분석 할 수 있습니까? 나는 HTML :: Tidy을 보았지만 horrible reviews on CPAN을 얻었다. 기본적으로 명령 줄 버전의 깔끔한 패키지 (HTML :: Tidy와 거의 같은 것)를 래퍼하는 사용자
HTML 형식을 지정하기 위해 PHP 5 Tidy 클래스를 사용하고 있습니다. 클래스 속성으로 변경하면 스타일 속성이 전달되면 예외는 아닙니다. 머리말이 아닌 문서의 본문 만 서식을 지정하기 때문에 읽을 속성의 헤드에 정의 된 클래스가 없습니다. 모든 깔끔한 옵션을 검토했지만이 동작을 중지하는 방법을 찾을 수 없습니다. 감사