EMR 5.x의 pyspark 셸/pyspark 스크립트에서 "s3-dist-cp"명령을 실행하는 방법 일부 데이터 이동이 필요할 때

pyspark
amazon-emr
s3distcp

2017-01-23 20 views 0 likes

내 pyspark 스크립트에서 s3-dist-cp 명령을 실행하는 데 문제가있었습니다. . 그래서 여기에 성능 향상을위한 HDFS에 S3에서 나는이 공유하고EMR 5.x의 pyspark 셸/pyspark 스크립트에서 "s3-dist-cp"명령을 실행하는 방법 일부 데이터 이동이 필요할 때

출처

2017-01-23 braj259

답변

Import os 

os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=none")

참고 : -. 당신은 (는/usr/빈/S3 - 거리와 같은 S3 - 거리-CP의 전체 경로를 제공하는지 확인하십시오 -cp)

또한 하위 프로세스를 사용할 수 있다고 생각합니다.

출처

2017-01-23 12:49:55 braj259

EMR 5.x의 pyspark 셸/pyspark 스크립트에서 "s3-dist-cp"명령을 실행하는 방법 일부 데이터 이동이 필요할 때

답변

관련 문제