0
내 pyspark 스크립트에서 s3-dist-cp 명령을 실행하는 데 문제가있었습니다. . 그래서 여기에 성능 향상을위한 HDFS에 S3에서 나는이 공유하고EMR 5.x의 pyspark 셸/pyspark 스크립트에서 "s3-dist-cp"명령을 실행하는 방법 일부 데이터 이동이 필요할 때
내 pyspark 스크립트에서 s3-dist-cp 명령을 실행하는 데 문제가있었습니다. . 그래서 여기에 성능 향상을위한 HDFS에 S3에서 나는이 공유하고EMR 5.x의 pyspark 셸/pyspark 스크립트에서 "s3-dist-cp"명령을 실행하는 방법 일부 데이터 이동이 필요할 때
Import os
os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=none")
참고 : -. 당신은 (는/usr/빈/S3 - 거리와 같은 S3 - 거리-CP의 전체 경로를 제공하는지 확인하십시오 -cp)
또한 하위 프로세스를 사용할 수 있다고 생각합니다.