두 개의 조인을 수행하는 기본적인 스파크 작업이 있습니다. 합쳐진 3 개의 데이터 프레임은 어느 정도 크기가 크며 각 프레임에 약 20 억 개의 레코드가 있습니다. 필요한 경우 자동으로 노드를 확장하는 스파크 인프라가 있습니다. 그것은 매우 간단한 spark SQL 쿼리와 같은 결과를 디스크에 기록하는 것처럼 보입니다. 그러나 내가 보았을 때 직장은 항상 99 %에 머물러 있습니다. 스파크 UI. 내가 시도 것들의점화 작업이 99 %에서 멈추고 계속되지 않습니다.
무리는 다음과 같습니다
- 는
executors
및executor memory
의 수를 늘립니다. - 파일을 쓰는 동안
repartition
을 사용하십시오. - 는
spark SQL join
는
그러나, 이러한 것들의 방법으로도 문제가 해결되지 않은 등 대신 기본 스파크 join
를 사용합니다. 누군가가이 문제를 해결할 경험을 공유 할 수 있다면 좋을 것입니다. 미리 감사드립니다.