2017-02-28 7 views
-1

나는 열렬한 웹 소설 독자이다. 나는 메인 폰을 읽었다. 모든 사이트가 어둡거나/가벼운 스위처, sans-serif/serif 폰트 스위처 또는 글꼴 크기를 변경하는 옵션을 가지고있는 것은 아닙니다. 일부 사이트에는 다음/이전 챕터 버튼조차 없습니다. 그래서 내 계획은 내가 원하는 모든 옵션을 가지고 하나씩 읽을 수있는 자체 웹 사이트를 만드는 것이 었습니다. 이제는 테마를 변경하고, 글꼴과 크기를 전환하는 방법을 알고 있습니다. 그러나 장 자체를 얻는 것은 꽤 투쟁 인 것으로 판명되었습니다.HTML 텍스트 긁기

처음에는 jquery를 사용하고 싶었지만 너비를 변경할 수는 있지만 높이는 알 수없는 이유로 변경되지 않았습니다. 예. $ ("# siteloader") .html (''); CSS 너비/높이 100 %.

나는 또한 링크와 텍스트가 남겨진 채 쓸모없는 혼란을 제거하는 방법을 알지 못했습니다. 그래서 나는 다른 접근법을 시도하기로 결정했습니다.

텍스트가있는 textise라는 사이트가 있다는 것을 알고 있습니다. 나는 비슷한 것을 만들고 싶었다. 웹 긁기에 대해 알아 냈어. 그러나 나는 어쨌든 jquery를 사용하여 웹 사이트에서 텍스트를 긁어내어 찾을 수 없습니다. 예를 들어 PHP 이미지 스크레이퍼를 찾았지만 PHP를 많이 사용하지 않았습니다.

제 질문은 누군가가 내가 jquery에서 원하는 것과 비슷한 것을하는 예제/튜토리얼을 알고 있습니까?

어쨌든 누구든지 나를 도울 수 있다면 정말 감사 할 것입니다. 여기에 질문하는 것이 처음이기 때문에 잘못 입력하면 미래의 질문에서 무엇을 바꿀 수 있는지 알려주세요.

+0

PHP로 텍스트를 다룰 수는 없습니다. [cURL] (http://php.net/manual/en/book.curl.php)과 같은 것을 사용하고 [SimpleDOM] (http://simplehtmldom.sourceforge.net/)과 같은 라이브러리를 사용하여 구문 분석 할 수 있습니다. 필요한 부분 만 추출합니다. – BenM

+0

스택 오버플로에 오신 것을 환영합니다! [질문] 및 [주제에 관한 것] (http://stackoverflow.com/help/on-topic) 및 [무엇에 관한 것이 아닌지] (http://stackoverflow.com/help/dont-ask)를 읽어보십시오. 외부 리소스에 대한 질문은 주제와 관련이 없습니다. –

+1

Firefox에는 "[독자보기] (https://www.google.gr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiQ3bb-grXSAhWCvBQKHW-MC40QFggaMAA&url=https%3A%2F)라는 옵션이 있습니다. % 2Fsupport.mozilla.org % 2Fen-US % 2Fkb % 2Ffirefox-reader-view-clutter-free-web-pages & usg = AFQjCNEWkqDoN09MlGV31oAk2qaq8y1cQw & sig2 = Qm01uDayYhkO8BTfaeddsw & cad = rja) "이 도움이 될 것입니다. – tgogos

답변

0

저는 여러분에게 도움이 될만한 비슷한 것을 연구했습니다. Httprequest를 사용하면 외부 리소스에서 HTML을 가져올 수 있습니다. 나는 그것을 사용하여 특정 이미지를 추출했다.

$.ajaxPrefilter(function (options) { 
    if (options.crossDomain && jQuery.support.cors) { 
    var http = (window.location.protocol === 'http:' ? 'http:' : 'https:'); 
    options.url = http + '//cors-anywhere.herokuapp.com/' + options.url; 
    } 
}); 

var url = 'https://www.smashingmagazine.com/2017/01/redesigning-the-paris-metro-map/'; 

$.get(
    url, 
    function (data) { 
     var html = $(data); 
     var article = html.find('article'); 
     console.log(article); 
     $('#content').html(article); 
}); 

이 예에서는 기사 태그를 검색합니다. 문제는 "웹 소설"을 추출하려는 페이지가 기사 태그를 포함하지 않을 수 있다는 것입니다.

https://jsfiddle.net/PaulvdDool/bra6v6rL/15/

I는 이미지를 추출 같은 문제에 부딪쳤다. 가장 좋은 결과는 메타 태그에 선언 된 og:image입니다. 하지만 그렇지 않으면 기사에서 첫 번째 이미지 나 헤더에 사용 된 이미지를 추출해야합니다.
많은 리소스가 기사 태그 또는 id가 content 인 div를 사용하는 것으로 나타났습니다. 나는이 모든 가능성들을 반복했다. og : image가 없으면 기사 태그를 검색하고, 기사 태그가없는 경우 ID가 content 인 div가 있는지 확인하십시오. 다른 모든 것이 실패하면, 나쁜 이미지가 없습니다.
비슷한 것을 원할 수도 있습니다.

직접 작성하는 것이 좋습니다. 연습. 당신의 기술을 향상시킵니다. 하지만 Pocket이나 Instapaper와 같이 나중에 읽을 수있는 앱을 사용할 수도 있습니다.