2014-11-16 6 views
3

spark shell에서 Amazon 공용 데이터 세트 저장소의 commoncrawl 파일에 액세스하려고합니다. 파일은 WARC.GZ 형식입니다.Commoncrawl.org를 여는 방법 Spark에서 WARC.GZ S3 데이터

val filenameList = List("s3://<ID>:<SECRECT>@aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-41/segments/1410657102753.15/warc/CC-MAIN-20140914011142-00000-ip-10-196-40-205.us-west-1.compute.internal.warc.gz") 

// TODO: implement functionality to read the WARC.GZ file here 
val loadedFiles = sc.parallelize(filenameList, filenameList.length).mapPartitions(i => i) 
loadedFiles.foreach(f => f.take(1)) 

이제 mapPartitions 함수 내에서 WARC.GZ 형식을 읽는 기능을 구현할 것입니다. 이것은 좋은 접근 방법입니까? 나는 Spark 플랫폼에 대해 처음으로 익숙하고 Commoncrawl 코퍼스의 작은 부분을 사용하여 작은 데모 애플리케이션을 구현하고자했기 때문에 물어 본다. 스레드에서 사용중인 mapPartitions을 보았습니다 here.

나는 첫 번째 시도에서 sc.textFile ("s3 : // ....") .take (1)을 사용하여 내 컴퓨터에서 파일을 직접 열려고 시도하여 액세스가 거부되었습니다. S3 amazon 공개 저장소 파일은 EC2 인스턴스에서만 액세스 할 수 있습니까?

답변

4

"Analyzing Web Domain Vulnerabilities" 분석의 예제 코드는 Spark에서 WARC 파일에 액세스하는 방법을 보여줍니다. Spark은 Hadoop InputFormat 인터페이스를 지원합니다. 코드 자체는 GitHub에 호스팅됩니다.

우리는 Python과 Java를 사용하는 Hadoop과 마찬가지로 곧 일반 크롤링 GitHub 저장소에 예제를 제공하기를 희망합니다.