WARC.gz 파일에서 헤더 추출하기

사이트를 통해 많은 검색을 해왔지만 필요한 정보를 찾을 수 없었습니다. 데이터가있는 web.warc.gz 파일이 있고 WARC 헤더를 추출해야합니다. 나는 톰캣과 뒤로 (1.6) 뒤로에서 제공 ./warc-header 스크립트와 그 파생하려고 설치,하지만 난 내가 사용하고있는 형식에 대한 오류 메시지가 계속 :WARC.gz 파일에서 헤더 추출하기

Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz \r\n\ 
~/Desktop/output.csv type \r\n 
     USAGE: tgtWarc fieldsSrc id 
     tgtWarc is the path to the target WARC.gz 
      fieldsSrc is the path to the text of the record 
    make sure each line is terminated by \r\n 
    and that the file ends with a blank, \r\n terminiated line 
id is the XXX in: 
    Content-Description: Made from XXX by org.archive.wayback.util.WARCHeader 
    of the header record... header...

또는 다른 오류 유형 :

Sergeis-MacBook-Pro:bin sergeipashuev$ ./warc-header ~/Desktop/WEB.WARC.gz 
    ~/Desktop/output.csv Content-Type 
    java.io.IOException: End-Of-Stream before \r\n\r\n End-Of-ANVLRecord: 

at org.archive.util.anvl.ANVLRecord.load(ANVLRecord.java:163) 
at org.archive.wayback.util.WARCHeader.writeHeaderRecord(WARCHeader.java:43) 
at org.archive.wayback.util.WARCHeader.main(WARCHeader.java:75)

나는 그것이 명령 행에서 쓰는 형식이지만, 여전히 올바르게 할 수는 없다. 도와주세요?

출처

2014-02-21 spashuev

당신이 아래의 GitHub의 프로젝트 코드를 사용하여 얻을 수 있습니다 :

https://github.com/Smerity/cc-warc-examples/blob/master/src/org/commoncrawl/examples/S3ReaderTest.java

을

출처

2015-04-02 11:23:31

답변

관련 문제