2011-04-20 4 views
1

HTML 페이지 분석과 관련하여 질문이 있습니다. 예를 들어 필요로하는 테이블에 정보가 들어있는 www.example.com/page.html 페이지가 있으며 www.example.com/page2.html에는 텍스트 형식의 몇 가지 다른 정보가 있습니다. 현재, 패턴을 삽입해야하는 정규식 (preg_match_all)을 사용하고 있습니다. 이 작업을 수행하는 더 빠르고 좋은 방법이 있습니까? 그래서 전체 질문은 : 정규식을 통해 소스의 일부를 사용하고 편집 할 필요가없는 HTML 페이지에서 정보를 추출하는 빠르고 좋은 방법이 있습니까?HTML 페이지 분석

(기타 정보 : 그때 내가 데이터를 추출으로, preg_match_all 사용하여 페이지의 내용을 얻기 위해 PHP의 i.c.w. 컬을 사용하고 있습니다) 당신은 dom을 사용할 수 있습니다

답변

4

예! 웹 페이지의 내용을 PHP DOMDocument에로드하고 Javascript를 사용하는 것처럼 HTML 클래스와 ID를 사용하여 데이터를 가져올 수 있습니다. 여기

http://www.php.net/manual/en/class.domdocument.php

당신은 다음 설명서를 따라

DOMDocument::loadHTML($html); 

를 사용하여 시작해야하는 문서이며 그것은 예

입니다
2

this post에서 제안 된 파서 중 하나를 사용하십시오. html을 파싱하기 위해 정규 표현식을 사용해서는 안됩니다.