common-crawl

0열

1답변

commoncrawl를 분석해야합니다. 그 때문에 나는 파이썬 2.7을 사용하고있다. 일부 warc 파일을 보았습니다. warc.gz 파일에 바이너리 데이터가 있습니다. bs4를 사용하여 html 소스를 파싱해야합니다. 하지만 이것이 텍스트 데이터라는 것을 어떻게 감지 할 수 있으며 이것은 바이너리입니다. 예를 들어 이진 데이터가 포함 된 URL 레 est

0열

1답변

일반적인 크롤링 - WARC 파일 받기

일반적인 크롤링을 사용하여 웹 페이지를 검색하고 싶지만 길을 잃고 싶습니다. www.example.com에 대한 warc 파일을 받고 싶습니다. 이 링크 (http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json)가 다음 json을 생성합니다

0열

1답변

대형 HTML 데이터 세트를 보관 및 검색하려면 어떻게해야합니까?

나는 더 신선하고 이번 주말에 대회에 참가하려고합니다. 문제는 대용량 HTML 데이터 세트를 보관하고 검색하는 것과 관련이 있습니다. 제 친구는 저에게 웹 아카이브와 일반적인 크롤링을 사용하라고 제안했습니다. HTML 데이터 세트를 웹 아카이브로 변환하고 색인을 생성하는 방법을 제안 해주십시오. 미리 감사드립니다.

0열

1답변

일반 크롤링 데이터에서 Beautifull 스프가 텍스트 추출에 너무 많은 시간이 걸립니다.

일반 크롤링 데이터 세트 (warc.gz 파일)에서 html 콘텐츠를 구문 분석해야합니다. 대부분 사람들이 제안하기 때문에 bs4 (Beautifulsoup) 모듈을 사용하기로 결정했습니다. 얻을 수있는 코드가되어 다음과 같은 텍스트 : from bs4 import BeautifulSoup soup = BeautifulSoup(src, "lxml")

3열

1답변

Commoncrawl.org를 여는 방법 Spark에서 WARC.GZ S3 데이터

spark shell에서 Amazon 공용 데이터 세트 저장소의 commoncrawl 파일에 액세스하려고합니다. 파일은 WARC.GZ 형식입니다. val filenameList = List("s3://<ID>:<SECRECT>@aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-

0열

1답변

크레이트 일반 크롤링 예가 작동하지 않습니다.

일반적인 크롤링과 함께 크레이트와 함께 사용하려고합니다. https://github.com/crate/crate-commoncrawl 예를 들어 지침에 따라 크레이트를 설정하고 테이블 스키마를 만들었습니다. 내 시스템에서 작업하고 있으므로 URL : http://localhost:4200/_plugin/crate-admin을 사용하여 CRATE에 액세스하고

0열

1답변

매퍼에서 어떻게 로그합니까? (hadoop with commoncrawl)

"Mapreduce for the Masses"자습서의 commoncrawl 예제 코드를 사용하고 있습니다. 매퍼를 수정하려고하는데 일부 출력에 문자열을 기록 할 수 있기를 원합니다. 몇 가지 noSQL db를 설정하고 내 결과물을 푸시하는 것을 고려하고 있지만 좋은 해결책이라고 생각하지 않습니다. Java에서 이러한 종류의 로깅을 수행하는 표준 방법은 무

8열

2답변

검색 엔진을 만드는 방법? (2013 업데이트)

이 질문이 Stackoverflow에서 처음으로 asked 아니지만 거의 5 년 후입니다. 시간과 기술이 약간 변경되었습니다. 요즘 사람들이 검색 엔진을 만드는 것에 대해 어떤 생각을 갖고 있는지 궁금합니다. 예를 들어, Nutch은 계속 개발되고 있습니다.하지만 여전히 가장 강력한 솔루션입니까? 다른 언어에 사용할 수있는 대체 성숙한 솔루션이 있습니까?

0열

1답변

일반적인 크롤링 AWS 공용 데이터 세트 전송 비용

실제로 크롤링 데이터 세트에서 작업 중이며 원본 S3 버킷에서 EC2 클러스터로 데이터를 전송하는 데 드는 비용을 알고 싶습니다. 어떤 수수료가 있습니까 아니면 완전히 무료입니까?

1열

1답변

Amazon CommonCrawel의 하위 집합을 다운로드하는 방법 (텍스트 만 (WET 파일?)이 필요함)

연구 목적으로, 나는 그 텍스트에만 관심이 있지만 큰 (~ 100K) 웹 페이지 집합을 원합니다. 나는 그들을 gensim LDA 주제 모델로 사용할 계획이다. CommonCrawler는 시작하기에 좋은 장소 인 것처럼 보이지만 어떻게해야할지 모르겠습니다. 누군가 100K 텍스트 파일을 다운로드하는 방법 또는 파일에 액세스하는 방법을 알려줄 수 있습니까 (