2012-07-24 2 views
1

CakePHP 2.2에서 웹 크롤러를 만들기 시작했습니다. 페이지, 스크립트 크롤링 HTML 페이지이며, 내 값을 얻으려면, 그들을 구문 분석해야합니다.Cakephp에서 HTML 구문 분석하기

몇 가지 다른 솔루션을 시도해 보았습니다. 그리고 오픈 소스의 일부 사항을 살펴 보았지만 가장 좋은 방법은 무엇인지 모릅니다.

  • 있는 DOMDocument :: loadHTML은() -이 해결책이지만 100 % 확인 같은데.
  • 정규 표현식 - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component이 (케이크 1.3, 및 코드 그 자체를 위해 만들어진, 그래, 나는 그것을 좋아하지 않아 - - 을 심각한 메모리 누수 (들)있어)
  • 단순 HTMLDom 유지하기 어려운 비트

내가 사용해야하는 방법을 알아 내려면 귀하의 도움이 필요합니다.

+0

관련이있다. –

답변

2

DomDocument가 최선의 선택입니다. 이 모듈에 대한 php.net 설명서에는 몇 가지 예가 있습니다. 루비와 같은 다른 언어를 사용할 수 있다면 hpricot에 대한 좋은 경험이 있습니다. html을 파싱하는 라이브러리와 같은 jQuery입니다.

은이 질문은 Robust and Mature HTML Parser for PHP 내가 PHP의 DOMDocument를 사용해야하지만, 그것을 위해 어떤 좋은 자습서를 찾을 수없는 것 같습니다