Spark SQL 또는 Dataframe API를 사용하여 테이블을 조인해야합니다. 그것을 성취 할 수있는 최적의 방법이 무엇인지 알아야합니다.Spark SQL에서 대형 테이블을 결합하는 최적화 된 방법
시나리오는 다음과 같습니다
- 모든 데이터는 ORC 형식 하이브 (자료 Dataframe 및 참조 파일)에 존재한다.
- 나는 (크기 1 주위 TB)
을 큰 메모리 구조 (400 열)을 만들 11-13 다른 참조 파일과 하이브에서 읽어 하나 개의 자료 파일 (Dataframe)에 가입 할 필요가 무엇을 할 수 이것을 달성하기위한 최선의 방법이 될 수 있을까요? 비슷한 문제가 발생하는 경우 경험을 공유하십시오.
감사합니다. –
AWS의 6TB + 800 코어 서버 중 하나입니까? – user650749
단일 서버가 아닌 클러스터였습니다. 예, AWS에 있습니다. – Sim