내 파이썬 스크립트를 사용하여 페이지를 구문 분석하려고합니다. 그러나 <nobr> 태그와 함께 '&'은 문제가되고 있습니다. 여기 실제 HTML입니다. <A HREF="http://enpass.in/algo/c12.html" CLASS="style"> <NOBR>Simulation for 1st & 2nd path</NOBR></A>
지금 내 파서 내
내 C# 프로젝트에서는 SGML 파일을 구문 분석하는 작업을 처리했으며 매우 순진하게 XmlReader를 사용하려고 시도했으며 이로 인해 몇 가지 흥미로운 계시가 만들어졌습니다 (예 : SGML 및 올바른 형식의 XML 등) 그래서 저는 XML 파일로 변환 한 SGML 파서가 필요하다고 생각하고 있습니다. MSDN의 SgmlReader 및 제임스 클라크의
내 HTML 렌더러가 조금 더 잘 작동하도록이 정의를 찾고 있습니다. 현재 어떤 공백을 유지할 것인가, 어떤 것을 붕괴시킬 것인가, 그리고 무엇을 던져야 하는지를 추측하고 있습니다. SGML 표준은 찾기가 어렵고 HTML 표준은 필자의 요구에 따라 필요한 주제를 다루지 않는 것으로 보입니다. 현재 내 렌더러는 HTML을 트리로 구문 분석 한 다음 재귀 적
기존 SGM 파일을 XML로 변환하는 작업이 있습니다. SGM 파일은 5 개의 별도의 상위 태그를 사용하여 작성되었으며, 새로운 DTD는 상위 8 개의 태그로 매핑되어 있어야합니다. 2 개의 DTD간에 공통된 태그가 있지만, 2 개의 DTD간에 데이터를 수동으로 복사하여 붙여 넣기 만하는 차이점은 충분합니다. 또한 레거시 형식과 새로운 형식으로 변환해야하는
XML을 이해함에있어서, XML은 SGML을 단순화하고 더 널리 사용되도록 고안된 SGML의 하위 집합입니다. 대부분의 유용한 기능이 XML로 가져 왔지만, SGML에서 강력한 기능을 사용하여 XML 대신 사용하고 (복잡성의 오버 헤드를 수용 할만큼) 강력한 기능이 있습니까?