2009-04-02 4 views
5

아직 AWS에서 MapReduce로 놀아 본 사람이 있습니까? 이견있는 사람? 구현 방법은 무엇입니까?AWS의 MapReduce

+3

나는 이런 질문을했을 때 4 초 만에 죽는다. 진짜 질문이 아니다. buls ** it – Letterman

답변

15

시작하기 쉽습니다. 여기

은 자주 묻는 질문이다 : http://aws.amazon.com/elasticmapreduce/faqs/

그리고 여기 시작 안내서 : 당신은 이미 EC2 계정이있는 경우 맵리 듀스를 활성화하고 위로 10 분 미만에서 실행하는 샘플 애플리케이션을 가질 수 http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/

AWS Management Console을 사용합니다.

약 20MB의 텍스트에 포함 된 각 단어의 수를 반환하는 사전 패키지 된 Word Count 샘플 응용 프로그램을 만들었습니다. 2 개의 인스턴스를 사용하고 약 3 분 만에 작업이 완료되었지만 동시 실행을 위해 최대 20 개의 인스턴스를 프로비저닝 할 수 있습니다.

이 작업은 300KB 알파벳순 목록과 각 단어가 샘플 자료에 나타나는 빈도를 반환합니다.

MapReduce 작업은 Perl, Python, Ruby, PHP, C++, R 또는 Java 중에서 선택할 수 있습니다. 프로세스는 쉽고 간단했으며 인터페이스는 인스턴스 및 작업 흐름의 상태에 대한 좋은 피드백을 제공합니다.

인스턴스가 생성 될 때 AWS가 1 시간 동안 요금을 부과하고 작업 흐름이 끝나면 MapReduce 인스턴스가 자동 종료되므로, 여러 가지 빠른 실행중인 작업 흐름의 비용이 신속하게 합산 될 수 있습니다 .

예를 들어 20 개의 인스턴스를 사용하고 15 분 내에 결과를 반환하는 작업 흐름을 만든 다음 3 번 더 작업 흐름을 다시 실행하면 컴퓨터 시간이 80 시간 1 시간 동안 20 개의 인스턴스 만 실행했습니다.

+0

우리의 경험뿐만 아니라 느린 시작 시간. 몇 시간 동안 일할 가능성이있는 일만 있다면 가치가 있습니다. –

+0

클러스터가 반드시 자동 종료되는 것은 아니므로 계속 실행해도됩니다. –

2

자신의 클러스터를 관리 할 필요가 없으므로 매우 편리합니다. 당신은 한 번 사용료를 지불하기 때문에 한 번만 실행해야하는 직업이 있다면 좋은 생각이라고 생각합니다. 우리는 매월 한 번만 Amazon MapReduce를 실행하고 있으므로 사용하기에 가치가 있습니다.

그러나 내가 알 수있는 한 Amazon Map Reduce의 단점은 어떤 운영 체제가 실행되고 있는지 또는 버전이 무엇인지 알 수 없다는 것입니다. 이로 인해 g ++ 4.44로 컴파일 된 C++ 코드, 일부 OS 이미지가 cUrl 라이브러리 등을 지원하지 않는 등의 문제가 발생했습니다.

사용 사례에 특별한 라이브러리가 필요하지 않으면 .

1

좋은 대답은 MB입니다.

분명해야 함 : 두 가지 방법으로 Hadoop 클러스터를 실행할 수 있습니다. 1) Amazon EC2 인스턴스에서 Hadoop 클러스터를 실행합니다. 즉, 설치하고, 구성하고, 종료해야합니다. 2) Elastic MapReduce 또는 EMR을 사용하여 실행하십시오. Amazon Web Services에서 Hadoop 클러스터를 실행하는 자동화 된 방법입니다. EC2의 기본 비용 외에 약간의 추가 비용을 지불하지만, 아무 것도 관리 할 필요가 없습니다. 데이터를 업로드 한 다음 알고리즘을 업로드 한 다음 위기에 처하게됩니다. EMR은 작업이 완료되면 자동으로 인스턴스를 종료합니다.

최고의

,

시몬

3

는 또한 StarCluster와 AWS에 맵리 듀스 (하둡)를 실행 할 수있는 가능성이있다.이 도구는 클러스터를 구성하고 비용을 줄이려면 추가로 Amazon Elastic MapReduce 가격을 지불 할 필요가 없으며 도구로 자신의 이미지 (AMI)를 만들 수 있다는 이점이 있습니다 (부트 스트랩 스크립트로 도구를 설치할 수 없으면 좋을 것입니다.

1

EMR은 사용 가능한 리소스를 EC2보다 약간의 추가 비용으로 사용하는 가장 좋은 방법이지만 시간을 절약하고 쉽게 사용할 수 있습니다. 클라우드에서의 MR 구현의 대부분은 Windows Azure, Mortar Data 등의 Apache Hadoop 모델을 사용합니다. Windows Azure의 Amazon EMR 및 Apache Hadoop 모두에서 작업했으며 사용하기에 놀라운 것을 발견했습니다.

0

사용할 수 있습니다. 그것은 꽤 산뜻하다. 한 번 클러스터를 시작하고 마스터 노드에 로그인하면됩니다. 당신은 hadoop 디렉토리 구조로 놀 수 있습니다. 그리고 아주 멋진 일들을해라. 만약 당신이 에듀 계좌를 가지고 있지 않다면, 연구비를 신청하는 것을 잊어 버려라. 그들은 AWS를 사용하기 위해 100 달러의 무료 크레딧을줍니다.

0

AWS EMR은 S3 스토리지를 데이터로 사용할 때 적합합니다. 파일로드 및 처리 된 파일 게시를 위해 S3과의 기본 통합 기능을 제공합니다. 필요에 따라 작업을 실행해야하는 경우 전체 클러스터를 실행하는 데 소요되는 시간을 절약 할 수 있습니다. 이는 실제로 인스턴스 시간을 절약하는 데 도움이됩니다. 위의 이점을 활용하여 AWS 람다를 사용하여 이벤트 기반 클러스터를 생성 할 수 있습니다.