emr

2열

1답변

각각 6GB의 메모리가있는 5 개의 작업자 노드 클러스터가 있습니다 (스파크 실행 메모리는 4608GB로 설정 됨). 스파이가 내 집행자 중 한 명이 5.0GB의 메모리를 더 많이 사용하려고한다는 말로 기억이 부족합니다. 각 집행자가 5GB의 메모리를 확보하면 전체 클러스터 사이에 전체적으로 25GB의 메모리가 있어야합니다. 내 스파크 응용 프로그램의 시작

0열

2답변

pyspark에서 분할 및 감속기 수를 설정하는 방법

amazon EMR 인스턴스에서 pynpark를 실행하여 dynamodb에서 데이터를 읽으려는 중 코드의 분할 및 작업자 수를 설정하는 방법을 알고 싶습니다. 다음 두 문서의 지침에 따라 현재 dynamoDB에 연결되어 있고 데이터를 읽는 아래 코드가 있습니다. connecting to dynamoDB from pyspark 및 Pyspark documen

0열

1답변

HadoopJarStepConfig.StepProperties를 사용하는 방법?

AWS docs는이 속성이 "작업 흐름 단계가 실행될 때 설정되는 Java 속성 목록입니다. 이러한 속성을 사용하여 JAR 파일의 기본 기능에 키 - 값 쌍을 전달할 수 있습니다."라고 설명합니다. 하지만 전달 방법과 주요 기능 측면에서 키 - 값 쌍의 컬렉션에 올바르게 액세스하는 방법에 대한 설명은 없습니다 (적어도 필자는 찾지 못했습니다). 빠른 확인은

0열

1답변

하이브 테이블, 비정상적인 메타 스토어 연결을 만들 수 없습니다.

하이브와 EMR을 사용하여 S3 액세스 로그를 파티션하는 this blog post을 따릅니다. 나는 괜찮 액세스 로그의 작은 양동이에 대해이 스크립트를 실행 할 수 있었다, 그러나 큰 통의 상단에 테이블 작성 (~ 1.5 TB는) 다음과 같은 오류와 함께 실패합니다 FAILED: Execution Error, return code 1 from org.ap

0열

1답변

EMR에서 MultipleOutputs를 사용하는 Hadoop JAVA

3 개의 출력 파일을 만드는 프로그램 작성 프로그램 인 Hadoop 2.6.5를 사용하고 있습니다. 로컬을 실행할 때 프로그램이 훌륭하게 작동하고 3 개의 출력 파일을 만듭니다. EMR로 실행할 때이 줄이 충돌합니다. - 파일이 이미 있습니다. O EMR과 함께 Hadoop을 사용하는 방법이 아니라는 것을 알고 있습니다. 나는이 기사를 본 적이 : http

0열

1답변

AWS 스파크 EMR NumPy와 가져 오기 오류

나는 AWS EMR에 파이썬 스크립트를 제출하기 위해 노력하고있어하지만 난 여기에 대한 답변 중 하나를 사용하여 시도 ImportError: No module named numpy 를 얻을 : No module named numpy when spark-submitting합니다. 나는 sudo yum install python-numpy python-sc

0열

1답변

AWS EMR에 HA에 자원 관리자가 있습니까?

AWS EMR의 리소스 관리자에 대해 어떻게 HA를 사용할 수 있는지 알고 싶습니다. 마찬가지로 EMR에 보조 이름 노드를 가질 수있는 방법

0열

1답변

spark 환경 매개 변수가 실행 프로그램과 일관성이없는 이유는 무엇입니까?

EMR에서 스파크 애플리케이션을 실행 중입니다. 스파크 내역 UI에서 environment 탭 아래 spark.executor.instances은 1입니다. 그러나 executors 탭 아래에는 1 드라이버를 포함하여 9 집행자가 모두 있다는 것을 보여줍니다. 왜 이런 일이 발생합니까?

1열

1답변

s3-dist-cp를 사용하여 마루 파일

을 만들면 s3-dist-cp 도구를 사용하여 마루 파일 (병합 압축)을 병합 할 수 있는지 궁금합니다. "--groupBy"및 "--targetSize"옵션을 사용하여 시도 했으므로 작은 파일을 더 큰 파일로 병합했습니다. 그러나 나는 Spark 나 AWS Athena에서 그것들을 읽을 수 없다. 어떤 도움에 감사드립니다 HIVE_CURSOR_ERROR:

5열

1답변

공기 흐름 - EMR 운영자의 작업 인스턴스

공기 흐름에서 나는 job_flow_id을 내 emr-steps 중 하나에 전달해야한다는 문제에 직면하고 있습니다. 운영자로부터 job_flow_id을 검색 할 수 있지만 클러스터에 제출할 단계를 만들 때 task_instance 값이 올바르지 않습니다. def issue_step(name, args): return [ {