1
나는 emr 스파크 단계를 시도하고있다. 입력 s3 디렉토리가 있습니다. 어떤 여러 파일을 가지고 F1, F2, F3EMR 스파크 단계 및 하나의 파일로 출력 병합
이 같은 스파크 단계를 추가 오전 :
delimitedData.write.mode(SaveMode.Append).parquet(output)
I 직면하고 문제가 : I
aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","JsonToDataToParquetJob","s3://foo/My.assembly.jar","s3://inputDir/","output/"],"Type":"CUSTOM_JAR","ActionOnFailure":"CONTINUE","Jar":"command-runner.jar","Properties":"","Name":"Spark application"}]'
코드 다음 갖는다 출력 파일이 여러 개 있습니다. 하지만 내가 뭘 찾고 디렉토리에서 단일 출력 파일입니다. 어떻게하면 될까요?