2016-06-19 6 views
0

Apache 스파크가 스파크 데이터 프레임에서 동일한 쿼리와 동일한 테이블 쿼리에 대해 훨씬 느립니다.MySQL이 쿼리 최적화 및 일반적인 효율성에서 Apache보다 더 효율적입니까?

그렇다면 MySQL은 어디에서보다 효율적으로 작동합니까?

참고 : 텍스트가 10 열 모두 모두 100 만 개의 행이있는 테이블에서 시도했습니다.

JSON 테이블의 크기는 약 10GB입니다

일반적으로

내가 사용시기에 대한 지침을 알고 싶습니다 제온 16 코어와 64 기가 바이트 RAM와 동일한 서버 MySQL을 독립 pyspark 노트북을 사용하여 SPARK와 SQL 서버를 대상 데이터의 크기로 분석하여 분석 쿼리에서 실제 결과를 얻을 수 있습니다.

+4

MySQL 테이블에서 테라 바이트의 데이터로 시도해 보셨습니까? –

+1

RDD에 대해 언급했지만 DataSet 또는 DataFrame을 사용하지 않으면 실질적인 최적화 작업이 수행되지 않는다는 사실을 알고 계시기를 바랍니다. –

+0

여기에서 할 수있는 변수가 너무 많습니다. –

답변

1

그래도 더 이상 알지 못하면이 답변을하기가 여전히 어렵지만 여기에서 도와 주려고합니다. 리소스에 대한 경합이 없다고 가정 할 때, 여기에 여러 가지가 있습니다. 원사를 사용하고 json이 hdfs에 저장되어있는 경우 그것은 많은 블록으로 분할 될 가능성이 있으며, 그 블록은 다른 파티션에서 처리됩니다. json은 잘 분할되지 않으므로 병렬 기능을 많이 잃을 수 있습니다. 또한, 스파크 정말 조정 된 rdbms 같은 슈퍼 낮은 대기 시간 쿼리를 의미하지 않습니다. 스파크의 혜택을받는 곳은 많은 양의 데이터 (TB 또는 PB)가 필요합니다. 지연 시간이 짧은 쿼리를 찾으려면 임팔라 또는 하이브를 Tez과 함께 사용해야합니다. 파일 형식을 avro, parquet 또는 ORC로 변경하는 것도 고려해야합니다.

+0

실제로 저는 파라 케를 사용했습니다. – stackit