2016-08-18 14 views
0

나는 더 신선하고 이번 주말에 대회에 참가하려고합니다. 문제는 대용량 HTML 데이터 세트를 보관하고 검색하는 것과 관련이 있습니다. 제 친구는 저에게 웹 아카이브와 일반적인 크롤링을 사용하라고 제안했습니다. HTML 데이터 세트를 웹 아카이브로 변환하고 색인을 생성하는 방법을 제안 해주십시오. 미리 감사드립니다.대형 HTML 데이터 세트를 보관 및 검색하려면 어떻게해야합니까?

답변

0

WARC 형식은 널리 사용되는 표준으로, 웹 페이지를 보관하기위한 좋은 결정입니다. 또한 HTTP 헤더는 WARC 파일에 포함되어 있습니다. 따라서 WARC 파일을 만들려면 크롤러가 필요합니다. HTML 페이지가 파일 모음으로 제공되는 경우 콘텐츠를 WARC 파일로 가져 오려면 파일 시스템 (로컬 HTTP 서버를 통한 파일 시스템)을 크롤링해야합니다. 기어와 WARC 등의 내용을 내보낼 수있는 많은 툴과 라이브러리

  1. 가 : 다른

    모든 콘크리트 작업에 의존하는 단순한 wget --warc-file하지만 거기

  2. 하는 읽기 더 많은 WARC 파일을 처리하고 내용을 처리합니다.

도구 모음은 The WARC Ecosystem을 참조하십시오. 심각한 WARC 파일이 필요한 경우 Common Crawl에서 가져 오십시오 (예 : https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz

).