나는 수천 개의 웹 사이트를 크롤링하려고합니다. 여기에서 나는 HTML 컨텐트에만 관심이 있습니다.약 1000 개의 웹 사이트에서 데이터를 추출하고 파싱하기위한 웹 크롤러
그리고 나는 몇 달 동안 Heritrix 2.0 크롤러를 사용 해왔다. 내가 관심이있는 특정 내용을 추출하는 XPath는 사용한 구문 분석하는 XML에
를 HTML 변환,하지만 난 엄청난 성능에 달렸다 , 메모리 및 안정성 문제 (매일 Heritrix가 충돌하고 JVM 매개 변수로 메모리 사용을 제한하는 시도가 성공하지 못함).
현장에서의 경험을 토대로 수천 개의 출처에서 콘텐츠를 추출하고 구문 분석하는 데 사용할 크롤러는 무엇입니까?
고맙습니다. 2.0 버전에 대해 의심해 보았습니다. 그러나 사용자 정의 개발을 한 이래로 1.14로 변환하는 것이 두려워서 1.14도 작동하지 않음을 알았습니다. 이제는 1.14로 다운 그레이드하는 것에 대해 더 확신합니다. –
H2가 가능한 최악의 선택입니다. H3은 현재 베타 버전으로 출시되고 있으며 H1은 수년간 안정적이었습니다. – Kris
Heritrix 1.14 => 2.0 => 3.0으로 패턴을 발견했습니다. 유명한 현대적인 예에서 "Xp => Vista => 7"패턴이라고 부를 수 있습니다 :-) –