학부 프로그램에 대한 연구 프로젝트로 아주 간단한 데이터 마이닝 (실제로는 wordcound)을하고 있습니다.Amazon-S3에 4GB 파일 업로드
Amazon Elastic MapReduce를 사용할 것입니다.
4GB .xml 파일을 업로드해야합니다.
가장 좋은 방법은 무엇입니까?
작은 zip 파일을 업로드하고 어떻게 든 버킷에 압축을 풉니 다. 파일을 분할하고 업로드 한 다음 모든 작은 파일을 사용하여 MapReduce 작업을 스트리밍 하시겠습니까?
감사
XML이어야합니까? 4GB가 소요되고 공정한 비용이 든다. json과 같이 좀 덜 장황한 형식으로 변환하여 S3에 넣거나 적어도 아직 압축하지 않은 경우 압축하는 것이 더 효율적입니다. –