nutch

0열

1답변

Nutch 1.13을 내 Ubuntu에 설치했습니다. 독립 실행 형 모드에서 크롤링을 실행할 수 있습니다. 그것은 성공적으로 실행하고 원하는 결과를 생산하지만 난 hadoop에서 지금 그것을 실행하는 방법을 몰라? Hadoop을 가상 배포 모드로 설치했고 Hadoop을 사용하여 Nutch 크롤링을 실행하고 모니터링하려고합니다. 내가 어떻게 해? 독립 실행

0열

1답변

Apache Nutch의 parserJob 유틸리티는 무엇입니까?

injector, generator, fetcher 및 dbUpdater와 같은 유용한 문서를 찾을 수 없습니다. 나는 그것이 무엇을하는지 이해할 필요가있다. Nutch를 사용하고 있습니다. 2.2.1

0열

1답변

Apache Nutch 주입 URL

Apache Nutch (2.3.1) 및 mongodb (3.4.7)를 처음 사용합니다. 설치 단계 후에 URL을 삽입하고 wikipedia 웹 사이트를 크롤링합니다. 내가 "./nutch inject urls"를 실행할 때 터미널에서이 오류가 발생했습니다. ~/apache-nutch-2.3.1/runtime/local/bin$ ./nutch inject

0열

1답변

Apache Nutch 웹 크롤링의 시드 URL

Apache Nutch는 웹 크롤링의 시드 URL로 http://rdf.dmoz.org/rdf/content.rdf.u8.gz을 권장합니다. 그러나 그들은 웹 사이트를 폐쇄했다. 웹 크롤링을위한 대체 시드 URL이 있습니까?

0열

1답변

Apache Nutch에서 크롤링하는 동안 오류가 발생했습니다.

Hadoop (2.5.2) 다중 노드 클러스터 (AWS EC2 시스템) 위에 Apache Nutch 2.3.1을 설치했습니다. 그에 따라 Nutch 파일을 구성했습니다 (마스터 노드에서). seed.txt 파일 (크롤링 할 URL이 있음)을 마스터에서 Hdfs 파일 시스템으로 이동했습니다. 이제 다음 명령을 실행하여 크롤링합니다. bin/hadoop jar

0열

1답변

Apache Nutch Crawler 설정 깊이

Apache Nutch Crawler의 깊이를 설정하는 방법은 무엇입니까? 명령 아래 크롤링이되지 않습니다 말한다 : 나는 빈/크롤 대신 기어와 노력 bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5 . 그 때문에 오류가 발생합니다 : class cannot be loaded : bin.crawl

0열

2답변

Apache Nutch 2.3을 사용자 정의하는 방법

Nutch는 내 자신의 규칙에 따라 특정 URL을 선택하고 싶습니다. 이 단계는 생성시 완료됩니다. 나는 파서/인덱서 플러그인을 작성하는 방법을 안다. 그러나 생성 시간에 그것을하는 방법. 내 Nutch 버전은 2.3 계열입니다.

0열

1답변

Apache Nutch : 전체 웹 콘텐츠가 아닌 URL 목록을 얻으십시오.

나는 아파치 Nutch에 매우 익숙합니다. 내 목표는 시드 URL 목록에서 시작하여 Nutch를 사용하여 최대 크기 (최대 1 백만 개 또는 1TB 이하)로 URL (및 하위 URL)을 추출하는 것입니다. 나는 페이지의 내용을 필요로하지 않고 단지 URL을 저장할 필요가있다. 이 일을 할 수있는 방법이 있습니까? Nutch가 올바른 도구입니까?

1열

1답변

Nutch 색인 - 메타 데이터 색인 없음

메타 태그 마녀 Nutch에서 메타 데이터를 색인하려고합니다. 나는 단계별 자습서 Nutch - Parse Metatags에 의해 단계를 follewed했지만 아무것도 색인이 생성됩니다. 단계별 튜토리얼과 같이 플러그인을 구성했습니다. 크롤링 프로세스를 실행할 때 15 개의 문서가 로그에 색인되어 있지만 읽을 때 나는 볼 수 없습니다. 색인이 작성되었지만

0열

1답변

Nutchx2의 라운드 수를 사용하는 방법

동일한 문제가 있습니다. 내가 Nutch의 2.3.1 버전 SOLR의 5.2.1 버전을 사용하고 있습니다 그런데 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10 crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds> : 나는