2016-09-02 12 views
0

나는 다음과 같이 warc 아카이브를 만들 수 wget을 실행 개별 파일을 쓰기 방지 :wget을 --warc 파일 --recursive,

$ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ 

$ l -h /tmp/epfl.warc.gz 
-rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl.warc.gz 

$ find . 
./www.epfl.ch/index.html 
./www.epfl.ch/public/hp2013/css/homepage.70a623197f74.css 
[...] 

나는 단지 epfl.warc.gz 파일이 필요합니다. wget이 모든 개별 파일을 만드는 것을 어떻게 방지합니까? 개별 파일에 대한

$ wget --warc-file=/tmp/epfl --recursive --level=1 --output-document=/dev/null http://www.epfl.ch/ 
ERROR: -k or -r can be used together with -O only if outputting to a regular file. 

답변

0

을 (--recursive없이) 옵션 -O /dev/null 출력을위한 파일을 생성하지 wget을 만들 것 다음과 같이

나는 시도했다. 재귀 적 가져 오기의 경우 /dev/null이 허용되지 않습니다 (이유를 모르겠 음). 그렇다면 -O tmpfile을 통해 하나의 파일에 연결된 모든 출력을 작성한 다음이 파일을 삭제하지 않는 이유는 무엇입니까?

+0

나는 데이터 중복을 피할 수있는 방법이 있는지 묻고 있었다. –