2017-09-29 7 views
1

저는 현재 그물을 연구 중이며 앱 스토어 용 자바 웹 크롤러를 만드는 방법을 찾으려고합니다. Jsoup 라이브러리를 사용해 보았지만 무한 스크롤 웹 페이지 크롤링을 지원하지 않습니다. 자바를 사용하여 무한 루프 웹 페이지를 크롤링하는 적절한 방법을 알고 있다면 언제든지 알려주십시오. 자바 설치 PhantomJS에Java를 사용하여 앱 스토어 크롤러를 사용하십니까?

업데이트

어떻게?

고마워요.

+0

xml/html을 더 잘 분석하지 못합니까? –

+0

Og 나는 그것을 얻었고 스크롤은 스크롤에 채워져있다. 당신은 그 서비스를 찾아야 만한다. –

+0

Jsoup 라이브러리를 사용하는 동안 나는 "계산기"키워드의 검색을 적용 할 때 해결책을 찾았다 고 생각했다. 앱을 저장하고 HTML 파일을 구문 분석하면 처음 49 개의 앱만 가져옵니다. 페이지 아래로 스크롤 할 수있는 방법이 필요합니다. –

답변

0

JSoup은 크롤러가 아닌 HTML 파서입니다.

무한 스크롤이있는 페이지를 크롤링하려면 브라우저가 페이지를 스크롤하고 다른 크롤러의 시드와 동일한 URL을 사용하여 페이지를 탐색하여 요청한 요청을 기록 할 수 있습니다. Heritrix은 사용하도록 선택한 Java로 구현 된 웹 크롤러입니다. Nutch, StormcrawlerSparkler 같은 대안을 고려할 수도 있습니다.

또 다른 옵션은 PhantomJSJSON Wire Protocol과 같이 페이지를 렌더링하고 스크롤 이벤트를 실행하여 비슷한 결과를 얻기 위해 브라우저를 작동하는 사용자를 시뮬레이트하는 것입니다. 사용할 수있는 기존 구현은 PhantomJSDriver입니다.

+0

조언을 주셔서 감사합니다. Java로 PhantomJS를 설정하는 방법에 대한 자습서를 알고 있습니까? –

+0

다음은 StormCrawler를 사용하여 AJAX 페이지를 크롤링하는 방법에 대한 자습서입니다. http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html –

+0

내가 생각할 수있는 최선의 방법 Java에서 구현 한 PhantomJSDriver를 사용하여 PhantomJS를 제어합니다. https://github.com/detro/ghostdriver –