emr

1열

1답변

EMR에서 스파크 작업 (버전 2.1.1)을 실행할 때 각 실행은 데이터 프레임에서 다른 양의 행을 계산합니다. 먼저 s3에서 4 개의 다른 데이터 프레임으로 데이터를 읽었습니다.이 개수는 데이터 프레임에 합류 한 후 항상 일치합니다. 조인의 결과는 서로 다릅니다. 이후 나는 또한 결과를 필터링하고 각 실행마다 다른 카운트를 갖는다. 변형은 1 ~ 5 행

1열

1답변

EMR 스파크 단계 및 하나의 파일로 출력 병합

나는 emr 스파크 단계를 시도하고있다. 입력 s3 디렉토리가 있습니다. 어떤 여러 파일을 가지고 F1, F2, F3 이 같은 스파크 단계를 추가 오전 : delimitedData.write.mode(SaveMode.Append).parquet(output) I 직면하고 문제가 : I aws emr --region us-west-2 add-steps -

0열

2답변

스파크 사용하기 디스크를 만지지 않고 s3에서 읽고 s3에서 쓸 수 있습니까?

대부분 내 스크립트는 다음과 같이하고 있습니다. 내 처리를 withing에 그룹화, 더 응집이 없기 때문에 spark.read().csv("s3://") .filter(..).map(...) .write().parquet("s3://"); 불꽃을 지정할 수있는 방법은, 내가 메모리에서 수행이 모든 일을 원하는 있나요? 이것은 디스크를

1열

1답변

Hadoop 하이브가 AWS EMR에서 스케일되지 않음

나는 hadoop 하이브에 대한 실험을하고 있습니다. 이 실험에서는 두 가지 하드웨어 설정에서 동일한 하이브 작업을 실행합니다. 이것은 AWS EMR에서 호스팅됩니다. laborder = 40 MB labresult = 150 MB labspecimen = 46 MB 이 작업은 약 40 초 실행 : 나는 다음과 같은 데이터 세트의 크기가이 스크립트를

0열

1답변

aws emr에서 하이브 쿼리를 실행할 때 장치에 남아있는 공간을 없애는 방법

하이브 쿼리를 실행하는 데 aws emr setup을 사용하고 있습니다. 현재 하드웨어 설정은 다음과 같습니다. 하나의 마스터 - m3.xlarge 8의 vCPU, 15 지브 메모리, 80 SSD GB 스토리지 EBS 스토리지 : 없음 다섯 코어 노드 - m3.xlarge 8의 vCPU, 15 지브 메모리, 80 SSD GB 스토리지 EBS 저장소 : 없음

0열

1답변

java JDBC를 사용하여 UDF 함수가 작동하지 않습니다.

EMR 클러스터를 사용하고 UDF jar를 선택하고 함수를 작성하는 단계 구성을 추가했습니다. EMR 클러스터가 생성되고 있으며 하이브 CLI에서 UDF 기능을 사용할 수 있습니다. 그러나 java jdbc를 사용하여 동일한 쿼리를 실행하는 동안 오류가 발생합니다. 누구든지 나를 도울 수 있습니까? 나는 영구적 인 기능을 만드는 오전 - 'brickhous

1열

1답변

EMR 클러스터에서 spark-submit 또는 sparkR을 사용하여 SparkR 스크립트를 실행하는 방법은 무엇입니까?

나는 sparkR 코드를 작성했으며 EMR 클러스터에서 spark-submit 또는 sparkR을 사용하여 제출할 수 있는지 궁금합니다. 내가 예를 들어 여러 가지 방법을 시도 : Error in sparkR.sparkContext(master, appName, sparkHome, sparkConfigMap, : JVM is not ready after

0열

1답변

AWS EMR Spark- Cloudwatch

AWS EMR-Spark에서 응용 프로그램을 실행하고있었습니다. 여기에 불꽃 제출 작업이 있습니다. - Arguments : spark-submit --deploy-mode cluster --class com.amazon.JavaSparkPi s3://spark-config-test/SWALiveOrderModelSpark-1.0.assembly.jar s

0열

2답변

Spark의 UDF는 매우 느리게 작동합니다.

uaparser 라이브러리에서 scala (uap-scala)를 사용하여 사용자 에이전트에서 장치를 파싱하는 스칼라로 작성된 spark (EMR에서 실행)의 UDF가 있습니다. 작은 세트로 작업 할 때는 잘 작동하지만 (5000 행) 큰 세트 (2M)에서 실행하면 매우 느리게 작동합니다. 나는 나열 Dataframe를 수집하고 드라이버에 대한 반복했는데,

-1열

1답변

Json 키를 Spark의 열로 변환하십시오.

데이터를 읽고 튜플에서 두 번째 요소를 선택하는 코드를 작성했습니다. 두 번째 요소는 JSON 일 수 있습니다. 내가 열과 행으로 marketplaceId, 고객 ID를 등과 같은 JSON 키가 데이터 프레임을 만들려면 지금 {"data": {"marketplaceId":7,"customerId":123,"eventTime":1471206800000,"as