배포 한 버전의 장고 응용 프로그램을 사용할 때 lxml에 이상한 문제가 있습니다. lxml을 사용하여 서버에서 가져 오는 다른 HTML 페이지를 구문 분석합니다. 이것은 내 자신의 컴퓨터에있는 개발 서버에서 완벽하게 작동하지만, 어떤 이유인지 그것은 UnicodeDecodeError을 서버에 제공합니다. ('utf8', "\x85why hello ther
파이썬으로 HTML 구문 분석을해야합니다. 몇 가지 연구가 끝난 후 lxml이 최선의 선택 인 것처럼 보이지만 내가하는 일에 도움이되는 예제를 찾는 데 어려움을 겪고 있습니다. 이것이 내가 듣는 이유입니다. 내가 볼 수있는 모든 텍스트에 대한 페이지를 고칠 필요가 .. 모든 태그와 자바 스크립트 밖으로 스트립. 나는 그것을 텍스트가 볼 수있는 날 떠나 줘야
나는이 예제와 유사 LXML를 사용하여 네임 스페이스를 지정하기 위해 노력하고있어에서 네임 스페이스를 추가 (here에서 가져온) : <TreeInventory xsi:noNamespaceSchemaLocation="Trees.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
</TreeInvent
xml 문서를 생성하기 위해 (단지 etree.tostring (root)를 사용하여) xml 문서를 생성하고 있지만 그 결과 xml은 숫자 값 (& #)이 아닌 명명 된 엔티티 (& lt; 60; 결과에서 이름 대신 숫자 값을 사용하도록 정확히 변경하려면 어떻게해야합니까? 감사
구문 분석 된 HTML 문서의 DOM 트리를 찾아야합니다. 내가 lxml이와 함께 문자열을 구문 분석하기 전에 uTidyLib을 사용하고 는 는 = tidy.parseString (html_code, 옵션) DOM = etree.fromstring (STR의 (a)) 때때로 오류가 발생합니다 tidylib가 잘못된 형식의 html을 고칠 수없는 것 같습니다