저는 현재 그물을 연구 중이며 앱 스토어 용 자바 웹 크롤러를 만드는 방법을 찾으려고합니다. Jsoup 라이브러리를 사용해 보았지만 무한 스크롤 웹 페이지 크롤링을 지원하지 않습니다. 자바를 사용하여 무한 루프 웹 페이지를 크롤링하는 적절한 방법을 알고 있다면 언제든지 알려주십시오. 자바 설치 PhantomJS에Java를 사용하여 앱 스토어 크롤러를 사용하십니까?
업데이트
어떻게?
고마워요.
저는 현재 그물을 연구 중이며 앱 스토어 용 자바 웹 크롤러를 만드는 방법을 찾으려고합니다. Jsoup 라이브러리를 사용해 보았지만 무한 스크롤 웹 페이지 크롤링을 지원하지 않습니다. 자바를 사용하여 무한 루프 웹 페이지를 크롤링하는 적절한 방법을 알고 있다면 언제든지 알려주십시오. 자바 설치 PhantomJS에Java를 사용하여 앱 스토어 크롤러를 사용하십니까?
업데이트
어떻게?
고마워요.
JSoup은 크롤러가 아닌 HTML 파서입니다.
무한 스크롤이있는 페이지를 크롤링하려면 브라우저가 페이지를 스크롤하고 다른 크롤러의 시드와 동일한 URL을 사용하여 페이지를 탐색하여 요청한 요청을 기록 할 수 있습니다. Heritrix은 사용하도록 선택한 Java로 구현 된 웹 크롤러입니다. Nutch, Stormcrawler 및 Sparkler 같은 대안을 고려할 수도 있습니다.
또 다른 옵션은 PhantomJS과 JSON Wire Protocol과 같이 페이지를 렌더링하고 스크롤 이벤트를 실행하여 비슷한 결과를 얻기 위해 브라우저를 작동하는 사용자를 시뮬레이트하는 것입니다. 사용할 수있는 기존 구현은 PhantomJSDriver입니다.
조언을 주셔서 감사합니다. Java로 PhantomJS를 설정하는 방법에 대한 자습서를 알고 있습니까? –
다음은 StormCrawler를 사용하여 AJAX 페이지를 크롤링하는 방법에 대한 자습서입니다. http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html –
내가 생각할 수있는 최선의 방법 Java에서 구현 한 PhantomJSDriver를 사용하여 PhantomJS를 제어합니다. https://github.com/detro/ghostdriver –
xml/html을 더 잘 분석하지 못합니까? –
Og 나는 그것을 얻었고 스크롤은 스크롤에 채워져있다. 당신은 그 서비스를 찾아야 만한다. –
Jsoup 라이브러리를 사용하는 동안 나는 "계산기"키워드의 검색을 적용 할 때 해결책을 찾았다 고 생각했다. 앱을 저장하고 HTML 파일을 구문 분석하면 처음 49 개의 앱만 가져옵니다. 페이지 아래로 스크롤 할 수있는 방법이 필요합니다. –