2
사이트를 통해 많은 검색을 해왔지만 필요한 정보를 찾을 수 없었습니다. 데이터가있는 web.warc.gz 파일이 있고 WARC 헤더를 추출해야합니다. 나는 톰캣과 뒤로 (1.6) 뒤로에서 제공 ./warc-header 스크립트와 그 파생하려고 설치,하지만 난 내가 사용하고있는 형식에 대한 오류 메시지가 계속 :WARC.gz 파일에서 헤더 추출하기
Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz \r\n\
~/Desktop/output.csv type \r\n
USAGE: tgtWarc fieldsSrc id
tgtWarc is the path to the target WARC.gz
fieldsSrc is the path to the text of the record
make sure each line is terminated by \r\n
and that the file ends with a blank, \r\n terminiated line
id is the XXX in:
Content-Description: Made from XXX by org.archive.wayback.util.WARCHeader
of the header record... header...
또는 다른 오류 유형 :
Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz
~/Desktop/output.csv Content-Type
java.io.IOException: End-Of-Stream before \r\n\r\n End-Of-ANVLRecord:
at org.archive.util.anvl.ANVLRecord.load(ANVLRecord.java:163)
at org.archive.wayback.util.WARCHeader.writeHeaderRecord(WARCHeader.java:43)
at org.archive.wayback.util.WARCHeader.main(WARCHeader.java:75)
나는 그것이 명령 행에서 쓰는 형식이지만, 여전히 올바르게 할 수는 없다. 도와주세요?