Apache 스파크가 스파크 데이터 프레임에서 동일한 쿼리와 동일한 테이블 쿼리에 대해 훨씬 느립니다.MySQL이 쿼리 최적화 및 일반적인 효율성에서 Apache보다 더 효율적입니까?
그렇다면 MySQL은 어디에서보다 효율적으로 작동합니까?
참고 : 텍스트가 10 열 모두 모두 100 만 개의 행이있는 테이블에서 시도했습니다.
JSON 테이블의 크기는 약 10GB입니다
일반적으로
내가 사용시기에 대한 지침을 알고 싶습니다 제온 16 코어와 64 기가 바이트 RAM와 동일한 서버 MySQL을 독립 pyspark 노트북을 사용하여 SPARK와 SQL 서버를 대상 데이터의 크기로 분석하여 분석 쿼리에서 실제 결과를 얻을 수 있습니다.
MySQL 테이블에서 테라 바이트의 데이터로 시도해 보셨습니까? –
RDD에 대해 언급했지만 DataSet 또는 DataFrame을 사용하지 않으면 실질적인 최적화 작업이 수행되지 않는다는 사실을 알고 계시기를 바랍니다. –
여기에서 할 수있는 변수가 너무 많습니다. –