emr

    0

    1답변

    단계를 추가하여 스크립트를 제출할 때 EMR에서 일부 쉘 스크립트를 실행 중입니다. 프로세스가 실행되지만 로컬 시스템에 파일을 작성하는 스크립트의 행은 실행됩니다. 그러나 SSH를 통해 로그인하고 동일한 스크립트 (예 : 로그인 한 번 명령 줄에 복사 및 붙여 넣기)를 실행하면 파일이 생성됩니다. echo $FILENAMEUS > /home/hadoop/f

    0

    1답변

    하이브 2.1에서 NULL 맵을 확인하는 해결 방법을 찾으려고합니다. 지도 안의 키를 검사 할 때 정확한 결과를 얻습니다. 여기에 나는 또한 결과를 평가하고 노력하고있어입니다 : hive> select request_params, request_params is null from dcs_log_pday_s3 where pday='2016-11-24' an

    0

    1답변

    2 시간 안에 한 번 스파크 작업이 실행되어 일부 tgz 파일을 마루로 변환합니다.에서 df.write.mode("append").partitionBy("id","day").parquet("s3://myBucket/foo.parquet") 예를 들어, 나는 상당한 시간이 오래된 마루 파일 읽기에 소요되는 볼 수있는 출력을 스파크 제출 : 16 작업은 S

    2

    1답변

    모든 슬레이브 컴퓨터에 pip install을 사용하여 실행중인 EMR 클러스터를 업데이트하려고합니다. 어떻게해야합니까? 장시간 실행되는 전자 메일 경고 (EMR)가 오래 걸리므로 부트 스트랩 단계를 수행 할 수 없습니다. EMR 클러스터가 Spark & 얀을 실행 중이므로 일반적으로 spaves slaves.sh를 사용하지만 마스터 노드에서 해당 스크립트

    7

    1답변

    Apache Spark로 부트 스트랩 된 3- 노드 AWS ElasticMapReduce 클러스터를 배포했습니다. 내 로컬 컴퓨터에서, 나는 SSH에 의해 마스터 노드에 액세스 할 수 있습니다 일단 마스터 노드에 ssh'd ssh -i <key> [email protected] , 나는 pyspark를 통해 PySpark에 액세스 할 수 있습니다. 또한 (

    3

    1답변

    EMR에서 스칼라로 작성된 스파크 작업을 실행 중이며 각 실행자의 표준 출력은 GC 할당 오류로 채워집니다. 2016-12-07T23:42:20.614+0000: [GC (Allocation Failure) 2016-12-07T23:42:20.614+0000: [ParNew: 909549K->432K(1022400K), 0.0089234 secs] 2279

    2

    2답변

    AWS EMR에서 스파크 클러스터를 실행 중입니다. 스파크 UI를 사용하지 않고 AWS EMR에서 실행중인 작업 및 집행자의 모든 세부 정보를 얻으려면 어떻게해야합니까? 나는 그것을 모니터링과 최적화에 사용할 것이다.

    1

    1답변

    필라델피아의 범죄 발생에 대한 데이터가 들어있는 .csv 파일이 있습니다. 아마존 EMR에서 하이브 스크립트를 사용하여이 데이터를 HIVE 테이블로 변환합니다. 나는 다음과 같은 하이브 스크립트를 사용하고 : CREATE EXTERNAL TABLE IF NOT EXISTS Crime( Dc_Dist INT, PSA INT, Dispatch_Date_Ti

    0

    1답변

    가정용 Cloudera 클러스터에서 AWS EMR로 마이그레이션 할 계획입니다. 계획은 S3에 데이터를 저장하고 EMR Hive를 사용하여 데이터를 처리하는 것입니다. 우리는 데이터에 액세스하는 많은 비즈니스 사용자를 보유하고 있습니다. 현재 우리는 AWS EMR에서 similary를 사용하는 인증을 위해 보초를 사용합니다. EMR은 하이브에 대한 보초 기

    0

    1답변

    Cloud Formation 템플릿을 사용하여 Spark를 실행하는 AWS EMR 클러스터를 생성하고 있습니다. Cloud Formation은 응용 프로그램을위한 재현 가능한 환경을 만드는 방법이기 때문에 사용하고 있습니다. 웹 대시 보드에서 클러스터를 만들 때 옵션 중 하나는 키 쌍을 추가하는 것입니다. 이것은 ssh를 통해 클러스터의 노드에 액세스하기