warc

    0

    2답변

    warc 파일을 읽고 싶습니다. this page을 기반으로 다음 코드를 작성했지만 아무 것도 인쇄되지 않았습니다 !! 나는 다음과 같은 명령을 쓸 때 >>import warc >>f = warc.open("01.warc.gz") >>for record in f: print record['WARC-Target-URI'], record['Cont

    0

    1답변

    Nutch 2.3에서 WARC 파일로 데이터를 덤프해야합니다. 그러나 필요한 모듈을 찾을 수 없습니다. Nutch 1.x는이 기능을 가지고있었습니다. 나는 그것을 할 수있는 적절한 방법을 알고 싶습니다.

    0

    1답변

    나는 다음과 같이 warc 아카이브를 만들 수 wget을 실행 개별 파일을 쓰기 방지 : $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ $ l -h /tmp/epfl.warc.gz -rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/epfl

    2

    2답변

    Nutch 1.12를 사용하여 웹 사이트 목록을 크롤링했습니다. 사용하여 ./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir 를 그리고 하나의 WARC 파일로 : ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment 을하지만 어떻게 내가

    1

    1답변

    는 수 우리는 인덱스 일부 중간 파일 저장 WARC 추출하지 않고 직접 SOLR에 파일과 (예를. HTML 형식)를 WARC에서 하드 디스크에 첫번째 파일? 즉, 하드 디스크에 아무것도 저장하지 않고 이러한 파일의 색인을 생성 할 수 있습니까?

    2

    1답변

    사이트를 통해 많은 검색을 해왔지만 필요한 정보를 찾을 수 없었습니다. 데이터가있는 web.warc.gz 파일이 있고 WARC 헤더를 추출해야합니다. 나는 톰캣과 뒤로 (1.6) 뒤로에서 제공 ./warc-header 스크립트와 그 파생하려고 설치,하지만 난 내가 사용하고있는 형식에 대한 오류 메시지가 계속 : Sergeis-MacBook-Pro:bin s

    3

    2답변

    나는 다음과 같은 링크에서 도구 상자를 사용하여 파이썬으로 WARC 파일을 열려고 시도하고있다 : http://warc.readthedocs.org/en/latest/ 로 파일을 여는 : import warc f = warc.open("00.warc.gz") 다 괜찮 및 f를 객체는 다음과 같습니다 <warc.warc.WARCFile instance

    0

    1답변

    kibana를 사용하여 데이터를 가져 오는 방법에 대해 알고 싶습니다. 사실, 그게 나를위한 혼란. json 파일을 kibana를 사용하여로드하려고 시도했지만 가져 오지 않았습니다. 두 번째로, Warc 파일로 작업하려면 JSON 파일로 변환 한 다음 가져 오거나 작업해야하는 다른 솔루션이 필요합니다. 답변을 듣고 싶습니다.

    1

    1답변

    나는 워크 기록의 목록을 가지고 있습니다. 목록에있는 모든 단일 항목은 다음과 같이 생성이 같은 기록 output_file = warc.open("my_file.warc.gz", 'wb') 을 그리고 쓰기 : 을 지금 header = warc.WARCHeader({ "WARC-Type": "response", "WARC-Target-U

    0

    1답변

    나는 더 신선하고 이번 주말에 대회에 참가하려고합니다. 문제는 대용량 HTML 데이터 세트를 보관하고 검색하는 것과 관련이 있습니다. 제 친구는 저에게 웹 아카이브와 일반적인 크롤링을 사용하라고 제안했습니다. HTML 데이터 세트를 웹 아카이브로 변환하고 색인을 생성하는 방법을 제안 해주십시오. 미리 감사드립니다.