crawler4j

2열

1답변

Crawler4j - NoSuchMethod getOutgoingUrls()

craweler4j를 설정하려고합니다. Netbeans의 소스에서 구축하고 있습니다. 나는 crawler4j의 3.5 버전을 사용하고 호출하는 클래스는 한 번 사이트에 기재의 경우와 동일합니다 - public class MyCrawler extends WebCrawler { private final static Pattern FILTERS = P

1열

1답변

crawler4j : 20-30 초 동안 크롤링하면 몇 초 동안 내 IP 주소가 금지됩니다.

오픈 소스 crawler4j를 사용하여 mystore411.com에서 웹 사이트를 크롤링하려고했습니다. 크롤러는 제한된 시간 (예 : 20-30 초) 동안 정상적으로 작동 한 다음 웹 사이트가 다시 크롤링되기 전에 몇 분 동안 내 주소를 금지합니다. 가능한 해결책을 찾을 수 없었습니다. 여기의 robots.txt를 통해 가서 내가 그에서 가져온 것입니다 :

0열

1답변

확인 HTTP 상태

을 jsoup 사용하여 내가 같이 jsoup 사용하여 URL에 대한 HTTP 상태 코드를 얻고는 다음과 같습니다 Connection.Response response = null Document doc = Jsoup.connect(url).ignoreContentType(true).get() response = Jsoup.connect(ur

0열

1답변

Selenium을 사용하여 페이지 구문 분석 (부분적으로는 JavaScript로 생성)

문제가 있습니다. 제공된 앱에 대한 정보를 수집하고 이러한 정보를 데이터베이스에 저장하는 페이지 (예 : this one)를 구문 분석하고 싶습니다. 또한 모든 (사용 가능한) 페이지를 방문하는 데 crawler4j을 사용하고 있습니다. 그러나 문제는 - 내가 볼 수 있듯이, crawler4j는 소스 코드를 따라갈 링크가 필요합니다. 그러나이 경우 href

1열

1답변

권한 외부 jar 파일 작성 tomcat

내 응용 프로그램에 문제가 있습니다. Crawler4j를 통해 웹 사이트에서 데이터를 가져오고 데이터를 조작하기 위해 일부 디렉토리와 파일을 만들어야하지만 Tomcat은 권한을 부여하지 않습니다. 대답은 같다 :는 이 폴더를 만들 수 없습니다 : 내 응용 프로그램의 디렉토리와 파일을 생성하는 외부 항아리에 대한 권한을 부여 바람둥이을 구성하는 방법/데이터/

0열

1답변

crawler4j가 무작위로 매달려있는 이유는 무엇입니까?

저는 몇 달 동안 crawler4j를 사용해 왔습니다. 나는 최근에 사이트의 일부가 돌아 오지 않을 것이라고 생각하기 시작했다. 권장되는 솔루션은 resumable을 true로 설정하는 것입니다. 내가 공간으로 제한되어 있기 때문에 이것은 나를위한 선택 사항이 아닙니다. 나는 여러 번의 테스트를 실시하고 매달림이 매우 무작위 인 것으로 나타났습니다. 90

0열

1답변

crawler4j에서 URL의 시드 가져 오기 visit()

안녕하세요, crawler4j의 방문 기능에서 페이지의 출처를 어떻게 알 수 있습니까? 지금까지 나는 페이지의 URL을 가지고 있지만 거기로 인도하는 씨앗이 무엇인지 파악할 수 없다. public void visit(Page page) { String url = page.getWebURL().getURL(); }

1열

2답변

특정 접두사가있는 크롤링 URL

특정 접두사가있는 특정 URL crawler4j으로 크롤링하고 싶습니다. 예를 들어 URL이 http://url1.com/timer/image으로 시작하는 경우 유효합니다. 예 : http://url1.com/timer/image/text.php. 이 URL은 유효하지 않습니다 http://test1.com/timer/image 내가 그런 식으로 구현하려고

0열

1답변

기본 크롤러 4j를 포커스 된 크롤러로 변환

시드 URL에서 데이터를 검색하고 페이지를 다운로드 할 수있는 기본 크롤러를 구현했습니다. 또한 지정된 깊이가 달성 될 때까지 동일한 시드 웹 사이트에 내 크롤러를 유지할 수 있습니다. 미리 정의 된 키워드의 최소 임계 값을 통과하는 경우에만 페이지가 다운로드되는 것처럼 크롤러에 더 많은 제한을 적용 할 수 있습니까? shouldvisit() 함수에 이러한

1열

1답변

웹 크롤링 지원 Windows 크 롤러링 지원

증분 크롤링을 지원하는 Java에서 개발 된 오픈 소스 웹 크롤러가 필요합니다. 웹 크롤러는 쉽게 사용자 정의하여 solr 또는 elasticsearch와 통합해야합니다. 더 많은 기능을 추가로 개발중인 활성이어야합니다. Aperture는 내가 언급 한 모든 기능을 가지고 있지만 활성 크롤러가 아니며 상업적 목적으로 사용하는 라이센스로 인해 무시되었습니다.