2016-10-24 13 views
2

Nutch 1.12를 사용하여 웹 사이트 목록을 크롤링했습니다. 사용하여Nutch에서 데이터를 여러 warc 파일로 크롤링

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir 

를 그리고 하나의 WARC 파일로 :

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment 

을하지만 어떻게 내가 여러 WARC 파일로 하나 수집 된 데이터를 덤프 할 수 내가 사용하여 별도의 HTML 파일에 크롤링 데이터를 덤프 할 수 크롤링 된 각 웹 페이지에 대해

답변

1

은 꽤 많은 시도 후, 나는

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc 

내가 필요 정확히 않는 것을 발견 할 수!

0

문서 당 하나의 WARC를 갖기에는 약간의 시간이 걸리지 만, 여기에 당신이 가면 : 'warc.output.segment.size'에 대해 낮은 값을 지정하여 새 문서가 작성 될 때마다 파일이 회전되도록 할 수 있습니다. WarcExporter는 보닛 아래에 [https://github.com/ept/warc-hadoop]]을 사용하고 config가 사용됩니다. 세그먼트의 전체 덤프를 개별 WARC 파일로 :

+0

Hadoop을 사용하지 않고도 동일한 가능성이 있습니까? – Chronus