amazon-emr

    0

    1답변

    사용자 정의 Linux 응용 프로그램의 출력을 Hadoop에 공급해야하며 아마존 EMR은 실험하기 좋은 방법입니다. Hadoop과 Amazon 문서를 살펴보기 시작한 순간입니다. 따라서 일부 조언을 주시면 감사하겠습니다. SELinux 환경에서 응용 프로그램을 실행할 수 있습니까? 아마존 EMR 노드에서 (C++로 작성된) 내 앱을 전개/실행할 수 있습니까

    4

    1답변

    Elastic Map Reduce 작업 흐름의 입력 데이터로 S3 버킷을 사용하려고합니다. S3 버킷은 EMR 작업 흐름과 동일한 계정에 속하지 않습니다. 각 S3 버킷에 액세스하기 위해 S3 버킷 자격 증명을 지정하는 방법과 장소. 나는 다음과 같은 형식으로 시도 : s3n://<Access Key>:<Secret Key>@<BUCKET> 를하지만 나에게

    0

    1답변

    EMR 작업 호출과 입력 위치가 S3의 파일 일 때 데이터의 mapreduce 처리가 실제로 시작될 때까지 기다리는 시간이 길어졌습니다. 내 질문은, 네이티브 S3 파일 시스템에있는 데이터를 EMR에서 직접 실행하는지 또는 프로비저닝 된 EC2 머신의 HDFS 클러스터 (EMR 클러스터에 있음)로 데이터를 복사하는지 여부입니다.이 경우 많은 양 데이터를 복

    1

    1답변

    Amazon EMR은 사용자 정의 jar에 시스템 특성을 전달할 수 있습니까? hadoop jar -Dkey=value myjob.jar? (오히려 다음의 Configuration 오브젝트를 하둡 속한 응용 프로그램 자체의 초기화 중에 사용 위 key, value.) 관련 스레드 How to specify mapred configurations & java

    2

    3답변

    Amazon EMR에서 wordcount 예제를 실행하려고합니다. -1- 첫째, 나는 다음과 같은 명령을 사용하여 클러스터를 만들 : ./elastic-mapreduce --create --name "MYTEST"--alive 이 하나가있는 클러스터를 생성 인스턴스와에서는 jobID 반환,이 가 이 -2- 둘째, 나는 다음과 같은 명령을 사용하여 작업을 시

    3

    1답변

    S3 버킷에 데이터를 쓰는 동안 이상한 오류가 발생합니다. 정기적으로이 오류가 발생하지 않습니다. 따라서 문제가 정확히 무엇인지 파악할 수 없습니다. 참고로, 매번 동일한 EMR 구성을 유지하고 있습니다. 또한 s3 버킷의 폴더는 NOT 쓰기 금지입니다. FINISH_TIME="1373886754825" HOSTNAME="10\.144\.95\.241" E

    1

    1답변

    누군가가 나를 올바른 방향으로 안내 할 수 있습니까? Nutch가 Amazon EMR에서 작업하게하려고합니다. 지금까지 Nutch를 로컬에서 실행하고 함께 제공되는 셸 스크립트를 사용하여 실행되도록 할 수 있습니다. 그러나 Amazon에서는 JAR 위치 및 옵션을 지정해야합니다. 나는 그것을 스스로 컴파일함으로써 항아리를 얻을 수있다. 그러나 시작 옵션에

    1

    1답변

    루비에 EMR 매퍼를 쓰려고하는데, S3 버킷의 파일이 어떤 매개 변수로 전달 될지 불분명합니다. 내 현재 코드는 사용 : 나는 AWS 콘솔을 통해 테스트 워크 플로우를 만들려고 할 때 require 'optparse' options = {} opts.parse(ARGV) ... inputFile = options[:input] mode = op

    0

    2답변

    아마존의 EMR에서 mrjob을 실행하려고합니다. 인라인 러너를 사용하여 로컬에서 작업을 테스트했지만 Amazon에서 실행하면 실패합니다. 나는 외부 데이터 파일 zip_codes.txt에 의존하여 실패를 좁혔다. 하드 코드 된 우편 번호 데이터를 사용하여 종속성없이 실행하면 정상적으로 작동합니다. 업로드 파일 인수를 사용하여 필요한 데이터 파일을 포함하려

    0

    2답변

    저는 Hadoop 스트리밍을 사용하여 Python 기반 HTML 그래버를 작성하고 있습니다. 단일 스레드 파이썬 스크립트를 실행하는 것이 느리다는 것을 알게되었습니다. 다중 스레드 버전으로 수정하고 싶습니다. 누구든지 mapper의 스레드 수를 설정할 수있는 좋은 번호를 알고 있습니까? 나는 클러스터의 각 노드의 스펙을 잘 모르고 있지만 적어도 두 개의 스