2011-03-28 1 views
3

학부 프로그램에 대한 연구 프로젝트로 아주 간단한 데이터 마이닝 (실제로는 wordcound)을하고 있습니다.Amazon-S3에 4GB 파일 업로드

Amazon Elastic MapReduce를 사용할 것입니다.

4GB .xml 파일을 업로드해야합니다.

가장 좋은 방법은 무엇입니까?

작은 zip 파일을 업로드하고 어떻게 든 버킷에 압축을 풉니 다. 파일을 분할하고 업로드 한 다음 모든 작은 파일을 사용하여 MapReduce 작업을 스트리밍 하시겠습니까?

감사

+6

XML이어야합니까? 4GB가 소요되고 공정한 비용이 든다. json과 같이 좀 덜 장황한 형식으로 변환하여 S3에 넣거나 적어도 아직 압축하지 않은 경우 압축하는 것이 더 효율적입니다. –

답변

0

당신은 sequencefile으로이 XML을 넣고 그것을 BZIP2, 또는 그것을 BZIP2과 클라우드에 압축을 해제해야 하나.

0

큰 파일 하나를 업로드하려는 경우 S3에서 여러 부분 업로드를 지원합니다. 자세한 내용은 documentation page에서 시작하십시오.

+0

감사합니다. 여러 장의 업로드가 올바른 옵션 인 것 같습니다. Hadoop이 1GB 파일보다 1GB 파일을 더 사용하는 것이 좋을까요, 아니면 4GB 파일보다 더 낫지 않습니까? 아니면 차이가 없습니다. –

+0

@Ekaterina Prigara 죄송합니다. 정확하게 대답 할 수없는 질문입니다. –