쪽모이 세공 형식으로 재생 중입니다. 나는 이벤트의 마루 파일을 가지고 있는데, 각각 타임 스탬프, 주제 및 태그로 구성됩니다. 파일은 항목별로 정렬 된 다음 타임 스탬프별로 정렬됩니다. 훨씬 빠른 실행 및 반환 매우 몇 행레코드에 적용된 조건부 푸시 다운이있는 경우에도 파래 파일 중첩 된 열 중첩 된 열 전체를 검색합니다.
select topic from T where topic = 404;
: 내가 좋아하는 설명 될 수 쿼리를 실행합니다. 내가 뭔가처럼 그것을 변경할 때
select topic from T;
:이 계획을 분석
select tags from T;
를 실행 한 느리게 실행
select tags from T where topic = 404;
(때, 그것은 보인다는 것보다 훨씬 빠르게 실행 spark를 사용하여) 술어 푸시 다운이 적용되지만, 성능에서 태그의 열에 적용되지 않는다고 가정 할 수 있습니다.
하이브, 스파크 및 프레스토로 테스트했습니다. 마루 중첩 배열을 더 잘 처리하는 다른 기술이나 이에 대해 할 일이 있습니까? 스파크에서
- 실행 계획 :
== 물리적 계획 ==
* 프로젝트 [태그 # 4]
+ - * 필터 (isnotnull (주제 # 3L) & & (주제 # 3L = 404)
+ - * FileScan 쪽 마루 [주제 # 3L, 태그 # 4 ] 일괄 처리 : FALSE, 형식 : 마루, 위치 : InMemoryFileIndex [파일/예 경로] PartitionFilters [] PushedFilters [IsNotNull (주제) EqualTo가 (항목 404), ReadSchema : 구조체>
감사합니다, Roee
에 설명 스파크 문제입니다. –
안녕하세요, "T from topic = 404"태그의 쿼리 실행 계획을 공유했습니다. – roee
https://issues.apache.org/jira/browse/SPARK-4502 주소는 –