나는 을 r3.8xlarge (32 cores, 244G RAM)
으로 설정했습니다. 내 Spark
응용 프로그램에서스파크 : 마스터 로컬 [*]이 마스터 로컬보다 훨씬 느림
, 나는 DataBrick에서 Spark-CSV
를 사용하여 S3
에서 두 개의 CSV 파일을 읽고있다, 각 CSV는 약 5 백만 행이 있습니다. 나는 unionAll
두 DataFrames이며 결합 된 DataFrame에 dropDuplicates
을 실행 중입니다. 내가있을 때
는하지만,
val conf = new SparkConf()
.setMaster("local[32]")
.setAppName("Raw Ingestion On Apache Spark")
.set("spark.sql.shuffle.partitions", "32")
스파크는 .setMaster("local")
보다 느린 것이 빠른 32 개 코어하지 않을까요?