nutch

    0

    1답변

    Nutch 1.13을 내 Ubuntu에 설치했습니다. 독립 실행 형 모드에서 크롤링을 실행할 수 있습니다. 그것은 성공적으로 실행하고 원하는 결과를 생산하지만 난 hadoop에서 지금 그것을 실행하는 방법을 몰라? Hadoop을 가상 배포 모드로 설치했고 Hadoop을 사용하여 Nutch 크롤링을 실행하고 모니터링하려고합니다. 내가 어떻게 해? 독립 실행

    0

    1답변

    injector, generator, fetcher 및 dbUpdater와 같은 유용한 문서를 찾을 수 없습니다. 나는 그것이 무엇을하는지 이해할 필요가있다. Nutch를 사용하고 있습니다. 2.2.1

    0

    1답변

    Apache Nutch (2.3.1) 및 mongodb (3.4.7)를 처음 사용합니다. 설치 단계 후에 URL을 삽입하고 wikipedia 웹 사이트를 크롤링합니다. 내가 "./nutch inject urls"를 실행할 때 터미널에서이 오류가 발생했습니다. ~/apache-nutch-2.3.1/runtime/local/bin$ ./nutch inject

    0

    1답변

    Apache Nutch는 웹 크롤링의 시드 URL로 http://rdf.dmoz.org/rdf/content.rdf.u8.gz을 권장합니다. 그러나 그들은 웹 사이트를 폐쇄했다. 웹 크롤링을위한 대체 시드 URL이 있습니까?

    0

    1답변

    Hadoop (2.5.2) 다중 노드 클러스터 (AWS EC2 시스템) 위에 Apache Nutch 2.3.1을 설치했습니다. 그에 따라 Nutch 파일을 구성했습니다 (마스터 노드에서). seed.txt 파일 (크롤링 할 URL이 있음)을 마스터에서 Hdfs 파일 시스템으로 이동했습니다. 이제 다음 명령을 실행하여 크롤링합니다. bin/hadoop jar

    0

    1답변

    Apache Nutch Crawler의 깊이를 설정하는 방법은 무엇입니까? 명령 아래 크롤링이되지 않습니다 말한다 : 나는 빈/크롤 대신 기어와 노력 bin/nutch crawl seed.txt -dir crawler/stat -depth 1 -topN 5 . 그 때문에 오류가 발생합니다 : class cannot be loaded : bin.crawl

    0

    2답변

    Nutch는 내 자신의 규칙에 따라 특정 URL을 선택하고 싶습니다. 이 단계는 생성시 완료됩니다. 나는 파서/인덱서 ​​플러그인을 작성하는 방법을 안다. 그러나 생성 시간에 그것을하는 방법. 내 Nutch 버전은 2.3 계열입니다.

    0

    1답변

    나는 아파치 Nutch에 매우 익숙합니다. 내 목표는 시드 URL 목록에서 시작하여 Nutch를 사용하여 최대 크기 (최대 1 백만 개 또는 1TB 이하)로 URL (및 하위 URL)을 추출하는 것입니다. 나는 페이지의 내용을 필요로하지 않고 단지 URL을 저장할 필요가있다. 이 일을 할 수있는 방법이 있습니까? Nutch가 올바른 도구입니까?

    1

    1답변

    메타 태그 마녀 Nutch에서 메타 데이터를 색인하려고합니다. 나는 단계별 자습서 Nutch - Parse Metatags에 의해 단계를 follewed했지만 아무것도 색인이 생성됩니다. 단계별 튜토리얼과 같이 플러그인을 구성했습니다. 크롤링 프로세스를 실행할 때 15 개의 문서가 로그에 색인되어 있지만 읽을 때 나는 볼 수 없습니다. 색인이 작성되었지만

    0

    1답변

    동일한 문제가 있습니다. 내가 Nutch의 2.3.1 버전 SOLR의 5.2.1 버전을 사용하고 있습니다 그런데 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10 crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds> : 나는