필자는 beautifulsoup를 사용해야하지만 필자는 어떤 파서를 가져야하는지 모른다. 나는 lxml과 html.parser 사이에 주저하거나, 그렇지 않은 이유를 망설이게한다. 웹 페이지가 lxml과 호환되는지 알아 보는 방법은 무엇입니까? 웹 페이지가 HTML 파서를 준수하는지 확인하는 방법? 많은 감사python beautifulsoup : lxml html.parser
0
A
답변
3
은색 총알이 없습니다. Different HTML parsers behave differently이며 특정 페이지에 적합한 것을 선택해야합니다. 이 경우의 작동은 기본적으로 원하는 데이터를 얻을 수 있음을 의미합니다.
lxml
파서가 일반적으로 더 빠릅니다. html5lib
이 가장 관대합니다. 파손될 부러 지거나 잘 못된 HTML이있는 경우 이러한 차이가 발생할 수 있습니다. html.parser
이 내장되어있어 추가 종속성을 피할 수 있습니다 (문제가있는 경우). 차이점을 강조 표시 한 related table입니다.
"웹 페이지가 lxml과 호환되는지 확인하는 방법" http://lxml.de/validation.html – Dziugas