Nutch 1.13을 내 Ubuntu에 설치했습니다. 독립 실행 형 모드에서 크롤링을 실행할 수 있습니다. 그것은 성공적으로 실행하고 원하는 결과를 생산하지만 난 hadoop에서 지금 그것을 실행하는 방법을 몰라? Hadoop을 가상 배포 모드로 설치했고 Hadoop을 사용하여 Nutch 크롤링을 실행하고 모니터링하려고합니다. 내가 어떻게 해? 독립 실행
Apache Nutch (2.3.1) 및 mongodb (3.4.7)를 처음 사용합니다. 설치 단계 후에 URL을 삽입하고 wikipedia 웹 사이트를 크롤링합니다. 내가 "./nutch inject urls"를 실행할 때 터미널에서이 오류가 발생했습니다. ~/apache-nutch-2.3.1/runtime/local/bin$ ./nutch inject
Hadoop (2.5.2) 다중 노드 클러스터 (AWS EC2 시스템) 위에 Apache Nutch 2.3.1을 설치했습니다. 그에 따라 Nutch 파일을 구성했습니다 (마스터 노드에서). seed.txt 파일 (크롤링 할 URL이 있음)을 마스터에서 Hdfs 파일 시스템으로 이동했습니다. 이제 다음 명령을 실행하여 크롤링합니다. bin/hadoop jar
Apache Nutch Crawler의 깊이를 설정하는 방법은 무엇입니까? 명령 아래 크롤링이되지 않습니다 말한다 : 나는 빈/크롤 대신 기어와 노력 bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5
. 그 때문에 오류가 발생합니다 : class cannot be loaded : bin.crawl
나는 아파치 Nutch에 매우 익숙합니다. 내 목표는 시드 URL 목록에서 시작하여 Nutch를 사용하여 최대 크기 (최대 1 백만 개 또는 1TB 이하)로 URL (및 하위 URL)을 추출하는 것입니다. 나는 페이지의 내용을 필요로하지 않고 단지 URL을 저장할 필요가있다. 이 일을 할 수있는 방법이 있습니까? Nutch가 올바른 도구입니까?
메타 태그 마녀 Nutch에서 메타 데이터를 색인하려고합니다. 나는 단계별 자습서 Nutch - Parse Metatags에 의해 단계를 follewed했지만 아무것도 색인이 생성됩니다. 단계별 튜토리얼과 같이 플러그인을 구성했습니다. 크롤링 프로세스를 실행할 때 15 개의 문서가 로그에 색인되어 있지만 읽을 때 나는 볼 수 없습니다. 색인이 작성되었지만
동일한 문제가 있습니다. 내가 Nutch의 2.3.1 버전 SOLR의 5.2.1 버전을 사용하고 있습니다 그런데 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10
crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds>
: 나는