튜닝을 실행하는 가장 좋은 설정을 선택하는 방법을 궁금합니다 점화 작업. 기본적으로 큰 csv
파일을 DataFrame
에 입력하고 일부 문자열 발생 횟수를 계산합니다.조정 스파크, 큰 csv 파일을 읽을 수있는 실행 프로그램과 메모리 드라이버를 설정하십시오
입력 파일이 500GB 이상입니다. 스파크 작업이 너무 느린 ..
터미널 진행률 표시 줄는 :
[Stage1:=======> (4174 + 50)/18500]
NumberCompletedTasks:
(4174)은 약 1 시간이 소요됩니다.
NumberActiveTasks:
(50)으로 설정할 수 있다고 생각합니다. --conf spark.dynamicAllocation.maxExecutors=50
(다른 값으로 시도).
TotalNumberOfTasks:
(18500), 왜이 문제가 해결 되었습니까? 파일 크기에만 관련이 있습니까? 작은 로직으로 csv
을 읽었으므로 어떻게 스파크 작업을 최적화 할 수 있습니까?
--executor-memory 10g
--driver-memory 12g
이 파일이 로컬 컴퓨터에 있습니까? 파일 하나인가요? –
한 파일, 500GB 이상. 6 개의 노드가있는 클러스터에서 실행 –
그래서이 파일은 드라이버 컴퓨터에 저장됩니까? –