2016-06-20 10 views
0

필자는 beautifulsoup를 사용해야하지만 필자는 어떤 파서를 가져야하는지 모른다. 나는 lxml과 html.parser 사이에 주저하거나, 그렇지 않은 이유를 망설이게한다. 웹 페이지가 lxml과 호환되는지 알아 보는 방법은 무엇입니까? 웹 페이지가 HTML 파서를 준수하는지 확인하는 방법? 많은 감사python beautifulsoup : lxml html.parser

+1

"웹 페이지가 lxml과 호환되는지 확인하는 방법" http://lxml.de/validation.html – Dziugas

답변

3

은색 총알이 없습니다. Different HTML parsers behave differently이며 특정 페이지에 적합한 것을 선택해야합니다. 이 경우의 작동은 기본적으로 원하는 데이터를 얻을 수 있음을 의미합니다.

lxml 파서가 일반적으로 더 빠릅니다. html5lib이 가장 관대합니다. 파손될 부러 지거나 잘 못된 HTML이있는 경우 이러한 차이가 발생할 수 있습니다. html.parser이 내장되어있어 추가 종속성을 피할 수 있습니다 (문제가있는 경우). 차이점을 강조 표시 한 related table입니다.

+0

모든 링크를 확실히 받으려면 몇 가지 방법, 여러 가지 구문 분석기를 사용해야합니다. – Anonymus

+0

@Anonymus 아니, 보통 당신은 파서를 선택하고 그것에 충실합니다. 그러나 페이지가 잘 형성되어 있지 않은 것으로 상상할 수 있으며 다른 파서로 구문 분석하면 단일 페이지보다 더 큰 그림을 얻을 수 있습니다. 나는 아직 그 상황에 처하지 않았다. 감사. – alecxe