저는 파이썬 2.4/2.5를 사용하고 있습니다. libxm2dom
입니다. HTML 문서를 가져 와서 DOM을 빌드 할 수 있습니다. 특정 용어를 프로그래밍 방식으로 "검색"할 수있는 방법이 있습니까? XPath 함수를 사용하여 href
이라는 용어를 추출 할 수 있습니까? 예를 들어, 문서에서 HTML의 덩어리를 주어 :요소를 찾아 파이썬을 사용하여 XPath를 반환하십시오.
...
<a href="dog">bigdog</a>
...
내가 bigdog
을 찾을 것이다하는 XPath 기능을 가지고 있고, href
링크를 얻기 위해 XPath를 반환하고 싶습니다.
파이썬에서 libxml2를 사용하려면 실제로 lxml을 사용해야합니다. 클래식 DOM보다 훨씬 강력하고 편리한 API를 제공합니다. – lunaryorn
질문에 대한 명확하고 간결한 방식으로 작업하십시오 ...이 질문에 대한 편집을 참조하십시오. –