amazon-emr

2열

3답변

Hadoop 작업을 만들고 EC2 Map Reduce에서 실행하려고합니다. 또한 EC2에 업로드하기 전에 작업을 로컬로 실행하고 싶습니다. 로컬로 가져야 할 Hadoop의 버전/유형은 무엇입니까? Cloudera VM을 사용할 수 있습니까? Amazon에서 사용하는 Hadoop 버전은 무엇입니까?

1열

2답변

EMR의 RecommenderJob

아마존 EMR에서 RecommenderJob을 실행하려고합니다. SmartJukebox.jar (runnable이 아닌)라는 항아리가 있으며 main.TrackRecommander 클래스가 포함되어 있습니다. S3N : //smartjukebox/SmartJukebox.jar 및 인수 : 나는 작업 항아리와 흐름을 만들어 을 main.TrackRecomma

0열

1답변

Hadoop Non-splittable TextInputFormat

전체 파일을 분할하지 않고 매퍼로 보낼 수있는 방법이 있습니까? 나는 this을 읽었지 만, 중간 파일을 생성하지 않고 같은 일을하는 또 다른 방법이 있는지 궁금합니다. 이상적으로는 Hadoop에 대한 명령 줄의 기존 옵션을 원합니다. 아마존 EMR에서 Python 스크립트와 함께 streaming 기능을 사용하고 있습니다.

3열

1답변

Hadoop streaming :보고 오류

Hadoop에서 Python 스크립트를 사용하여 스트리밍 예외를보고하는 가장 좋은 방법은 무엇입니까? 의미 : 입력을 이해할 수없는 매퍼 스크립트가 있다고 가정 할 때 Hadoop에 작업을 종료하도록 신호를 보내려면 어떻게해야합니까? & 오류 메시지를보고 하시겠습니까? logging을 사용하고 sys.exit으로 끝내시겠습니까?

2열

1답변

Hadoop EMR에서 로그 확인

아마존 EMR (15 노드, 1.5 시간)에서 Hadoop 스트리밍 작업을 오래 실행했습니다. 작업이 약 75 % 완료 수준에서 실패합니다. 매퍼 (mapper)와 감속기 (reducer) 모두에 Python을 사용하고 있습니다. 나는 다음과 같은 최적화 만든 : 아무 소용이 sys.stderr.flush() time.sleep(30) s

4열

2답변

EMR을 사용하여 서로 다른 계정에서 DynamoDB 테이블 복사

하나의 DynamoDB 계정에 다른 계정으로 전송하려는 많은 테이블 정보가 있습니다. EMR을 사용하여 하나의 계정 내에서 테이블을 복사 할 수 있습니다 (예 : http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html). 다른 계정간에 이전 할 수

0열

1답변

계속 실행되도록 EMR을 만들려면

가능한 중복 : Re-use Amazon Elastic MapReduce instance 가 나는 시작 EMR 클러스터 실행 상태로 유지하고 내가 일 오전까지 후 말 (에 새 작업을 제출 유지할 수 있습니다 며칠) 클러스터를 종료하거나 그렇게하기 위해 EC2에 자체 클러스터를 설치해야합니까?

1열

1답변

Hadoop과의 페어와 비교 MapReduce

한 줄에 한 줄씩 큰 텍스트 파일 (5GB)이 있습니다. 독점적 인 알고리즘을 사용하여 각 라인을 다른 모든 라인과 비교해야합니다. MapReduce를 처음 접했지만 Java 경험이 있습니다. 나를 괴롭히는 문제는 별도의지도 입력을 만드는 것입니다. 문서는 각 라인이 다른 라인에 의존하지 않는다는 가정하에 작성된 것 같습니다. 이 일을하는 가장 좋은 방법은

1열

2답변

HDFS로 출력되는 EMR 작업에 distcp 및 s3distcp를 사용할 때의 문제

AWS의 EMR에서 작업을 실행하고 출력을 EMR 작업의 HDFS에 저장했습니다. 그런 다음 distcp 또는 s3distcp를 통해 결과를 S3에 복사하려고 시도하지만 아래에 설명 된대로 둘 다 실패합니다. (참고 : 이유는 그냥 S3에 직접 내 EMR 작업의 출력을 보내지 않고 있어요, 나는() this post's recommendation를 다음 실

4열

2답변

SequenceFile (AWS)을 사용한 Hadoop 스트리밍

AWS에서 Hadoop을 사용하여 처리하고자하는 Hadoop SequenceFile 수가 많습니다. 기존 코드의 대부분은 Ruby로 작성되어 있으므로 Amazon EMR의 맞춤 루비 매퍼 (Custom Ruby Mapper) 및 감속기 스크립트와 함께 Hadoop Streaming을 사용하고 싶습니다. 시퀀스 파일을 Hadoop Streaming과 통합하는