2017-11-26 22 views
0

Apache Nutch (2.3.1) 및 mongodb (3.4.7)를 처음 사용합니다. 설치 단계 후에 URL을 삽입하고 wikipedia 웹 사이트를 크롤링합니다. 내가 "./nutch inject urls"를 실행할 때 터미널에서이 오류가 발생했습니다.Apache Nutch 주입 URL

~/apache-nutch-2.3.1/runtime/local/bin$ ./nutch inject urls InjectorJob: starting at 2017-11-26 19:07:35 InjectorJob: Injecting urlDir: urls InjectorJob: org.apache.gora.util.GoraException: java.lang.NullPointerException at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:135) at org.apache.nutch.storage.StorageUtils.createWebStore(StorageUtils.java:78) at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:218) at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252) at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284) Caused by: java.lang.NullPointerException at java.util.concurrent.ConcurrentHashMap.get(ConcurrentHashMap.java:936) at java.util.concurrent.ConcurrentHashMap.containsKey(ConcurrentHashMap.java:964) at org.apache.gora.mongodb.store.MongoStore.getDB(MongoStore.java:192) at org.apache.gora.mongodb.store.MongoStore.initialize(MongoStore.java:122) at org.apache.gora.store.DataStoreFactory.initializeDataStore(DataStoreFactory.java:102) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:161) ... 7 more

+0

'urls' 파일이 있습니까? URL이 포함되어 있습니까? – MatsLindh

+0

답장을 보내 주셔서 감사합니다. 이 링크를 사용하여 설치했습니다. https : //lobster1234.github.io/2017/08/14/search-with-nutch-mongodb-solr/. 사실 URL 디렉토리에 .txt 파일을 만들고이 링크 "https://www.wikipedia.org"를 넣으십시오. 그것에. 그런데 "nutch"는 파일이지만이 사용자는 디렉토리 ($ runtime/local/bin/nutch inject urls /)로 작가와 함께 작업합니다. –

+0

MongoDB에서 createDataStore를 barfing 했으므로 Mongo에 대한 몇 가지 구성 설정이 누락되었습니다. – MatsLindh

답변

0

사실은 내가/conf의/gora.properties 파일 $ NUTCH_HOME에 잘못된 몽고의 database'name을 설정했다. 그것을 고치면 Apache nutch가 제대로 작동합니다.