QueryList
(http://git.oschina.net/jae/QueryList)이라는 PHP 라이브러리가 있으며, 내부적으로 phpQuery
을 사용하고 특정 URL의 특정 콘텐츠를 가져 오기 위해 일부 CSS 선택기 필터 배열을 사용합니다.
다큐먼트는 (나는 영어 버전이 생각하지 않는다) 중국어이지만, 사용하기 매우 간단합니다
<?php
// include the lib
require_once('QueryList.class.php');
// url to fetch content
$url = 'http://www.example.com/index.html';
// filter rules using css selector grammar
$regArr = array(
'time' => array('td:nth-child(2)', 'text'),
'summary' => array('td:nth-child(3) td:nth-child(3)', 'text'),
'imgSrc' => array('h1 > a > img', 'src')
);
// optional, firstly find `.divbox > table`, then find the things defined by $regArr in each `.divbox > table`
$regRange = '.divbox > table';
// do the query
$result = QueryList::Query($url, $regArr, $regRange);
// the result will be an array like:
/** Array
* (
* [0] => Array
* (
* 'time' => ,
* 'summary' => ,
* 'imgSrc' =>
* )
* [1] => Array
* (
* 'time' => ,
* 'summary' => ,
* 'imgSrc' =>
* )
* ...
*)
*/
echo '<pre>';
print_r($result->jsonArr);
echo '</pre>';
당신은 또한 정의 할 수 있습니다 제외 패턴 $ regArr에서 콜백 함수 , 나는 이것이 당신의 requirment를 만날 것 같아요.
대부분의 뉴스 채널에는 RSS 피드가 포함되어 있습니다. –
은 ** python **을 사용할 수 있습니다. –