Nutch 1.12를 사용하여 웹 사이트 목록을 크롤링했습니다. 사용하여Nutch에서 데이터를 여러 warc 파일로 크롤링
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
를 그리고 하나의 WARC 파일로 :
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
을하지만 어떻게 내가 여러 WARC 파일로 하나 수집 된 데이터를 덤프 할 수 내가 사용하여 별도의 HTML 파일에 크롤링 데이터를 덤프 할 수 크롤링 된 각 웹 페이지에 대해
Hadoop을 사용하지 않고도 동일한 가능성이 있습니까? – Chronus