warc

0열

2답변

warc 파일을 읽고 싶습니다. this page을 기반으로 다음 코드를 작성했지만 아무 것도 인쇄되지 않았습니다 !! 나는 다음과 같은 명령을 쓸 때 >>import warc >>f = warc.open("01.warc.gz") >>for record in f: print record['WARC-Target-URI'], record['Cont

0열

1답변

Nutch 2.3 데이터를 WARC 파일에 저장하는 방법은 무엇입니까?

Nutch 2.3에서 WARC 파일로 데이터를 덤프해야합니다. 그러나 필요한 모듈을 찾을 수 없습니다. Nutch 1.x는이 기능을 가지고있었습니다. 나는 그것을 할 수있는 적절한 방법을 알고 싶습니다.

0열

1답변

wget을 --warc 파일 --recursive,

나는 다음과 같이 warc 아카이브를 만들 수 wget을 실행 개별 파일을 쓰기 방지 : $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ $ l -h /tmp/epfl.warc.gz -rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl

2열

2답변

Nutch에서 데이터를 여러 warc 파일로 크롤링

Nutch 1.12를 사용하여 웹 사이트 목록을 크롤링했습니다. 사용하여 ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir 를 그리고 하나의 WARC 파일로 : ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment 을하지만 어떻게 내가

1열

1답변

WARC 파일을 Solr에 직접 색인 할 수 있습니까?

는 수 우리는 인덱스 일부 중간 파일 저장 WARC 추출하지 않고 직접 SOLR에 파일과 (예를. HTML 형식)를 WARC에서 하드 디스크에 첫번째 파일? 즉, 하드 디스크에 아무것도 저장하지 않고 이러한 파일의 색인을 생성 할 수 있습니까?

2열

1답변

WARC.gz 파일에서 헤더 추출하기

사이트를 통해 많은 검색을 해왔지만 필요한 정보를 찾을 수 없었습니다. 데이터가있는 web.warc.gz 파일이 있고 WARC 헤더를 추출해야합니다. 나는 톰캣과 뒤로 (1.6) 뒤로에서 제공 ./warc-header 스크립트와 그 파생하려고 설치,하지만 난 내가 사용하고있는 형식에 대한 오류 메시지가 계속 : Sergeis-MacBook-Pro:bin s

3열

2답변

열린 WARC 파일

나는 다음과 같은 링크에서 도구 상자를 사용하여 파이썬으로 WARC 파일을 열려고 시도하고있다 : http://warc.readthedocs.org/en/latest/ 로 파일을 여는 : import warc f = warc.open("00.warc.gz") 다 괜찮 및 f를 객체는 다음과 같습니다 <warc.warc.WARCFile instance

0열

1답변

Kibana 가져 오기에 대해 혼란스러운 경우

kibana를 사용하여 데이터를 가져 오는 방법에 대해 알고 싶습니다. 사실, 그게 나를위한 혼란. json 파일을 kibana를 사용하여로드하려고 시도했지만 가져 오지 않았습니다. 두 번째로, Warc 파일로 작업하려면 JSON 파일로 변환 한 다음 가져 오거나 작업해야하는 다른 솔루션이 필요합니다. 답변을 듣고 싶습니다.

1열

1답변

python3에서 lzma (* .warc.xz)를 사용하여 warc 레코드를 압축하는 방법은 무엇입니까?

나는 워크 기록의 목록을 가지고 있습니다. 목록에있는 모든 단일 항목은 다음과 같이 생성이 같은 기록 output_file = warc.open("my_file.warc.gz", 'wb') 을 그리고 쓰기 : 을 지금 header = warc.WARCHeader({ "WARC-Type": "response", "WARC-Target-U

0열

1답변

대형 HTML 데이터 세트를 보관 및 검색하려면 어떻게해야합니까?

나는 더 신선하고 이번 주말에 대회에 참가하려고합니다. 문제는 대용량 HTML 데이터 세트를 보관하고 검색하는 것과 관련이 있습니다. 제 친구는 저에게 웹 아카이브와 일반적인 크롤링을 사용하라고 제안했습니다. HTML 데이터 세트를 웹 아카이브로 변환하고 색인을 생성하는 방법을 제안 해주십시오. 미리 감사드립니다.