0

저는 뉴스 허브 앱을 만들려고하고 있습니다. 내 목표는 다른 뉴스 채널에서 뉴스 기사를 추출하여 요약하고 불편한 방식으로 글 머리 기호 형태로 제시하는 것입니다. 알고리즘을 설치하고 실행 중이며 NDTV, CNN 등과 같은 다른 웹 사이트에서 데이터를 수집하는 코드가 필요합니다. 수행 방법에 대한 설명을 부탁합니다.앱의 다른 웹 사이트에서 데이터를 수집하려면 어떻게해야합니까?

코드, 링크, 예제 및 스크린 샷이 많은 도움이됩니다. 감사합니다. (Y)

+0

대부분의 뉴스 채널에는 RSS 피드가 포함되어 있습니다. –

+0

은 ** python **을 사용할 수 있습니다. –

답변

1

웹 스크 레이 핑은 당신을위한 길입니다. 뉴스 기사 또는 필요한 모든 것을 , beautifulsoup 또는 selenium과 같이 가져올 수 있습니다. HTML 페이지 (텍스트)에서 데이터를 가져 오는 데 사용되는 파이썬 용 모듈이며 이후 데이터베이스와 같은 원하는 위치에 데이터를 저장할 수 있습니다 ; 헤드 라인에 대한 rss 페이지를 사용하는 것이 좋습니다.

0

QueryList (http://git.oschina.net/jae/QueryList)이라는 PHP 라이브러리가 있으며, 내부적으로 phpQuery을 사용하고 특정 URL의 특정 콘텐츠를 가져 오기 위해 일부 CSS 선택기 필터 배열을 사용합니다.

다큐먼트는 (나는 영어 버전이 생각하지 않는다) 중국어이지만, 사용하기 매우 간단합니다

<?php 
// include the lib 
require_once('QueryList.class.php'); 

// url to fetch content 
$url = 'http://www.example.com/index.html'; 

// filter rules using css selector grammar 
$regArr = array(
    'time' => array('td:nth-child(2)', 'text'), 
    'summary' => array('td:nth-child(3) td:nth-child(3)', 'text'), 
    'imgSrc' => array('h1 > a > img', 'src') 
    ); 

// optional, firstly find `.divbox > table`, then find the things defined by $regArr in each `.divbox > table` 
$regRange = '.divbox > table'; 

// do the query 
$result = QueryList::Query($url, $regArr, $regRange); 

// the result will be an array like: 
/** Array 
* (
* [0] => Array 
* (
*  'time' => , 
*  'summary' => , 
*  'imgSrc' => 
* ) 
* [1] => Array 
* (
*  'time' => , 
*  'summary' => , 
*  'imgSrc' => 
* ) 
* ... 
*) 
*/ 
echo '<pre>'; 
print_r($result->jsonArr); 
echo '</pre>'; 

당신은 또한 정의 할 수 있습니다 제외 패턴 $ regArr에서 콜백 함수 , 나는 이것이 당신의 requirment를 만날 것 같아요.