2017-10-10 14 views
1

하이브의 파일 형식이 HCatalog를 사용하는 pigScript에서 효율적으로 사용될 수 있는지 설명 할 수 있습니까?Apache pig - Best Hive 파일 형식

현재 어떤 하이브 파일 형식이 효율적인지 이해하고 싶습니다. 현재 우리는 날짜를 기준으로 파티션 된 하이브 테이블을 가지고 있으며 기본 파일은 순차 파일입니다. 80 일간의 데이터를 읽으면 약 70,000 개의 매퍼가 생성됩니다. 맵 분할 크기를 2GB로 변경하려고 시도했지만 많이 줄이지는 않았습니다.

그래서 순차 파일 대신 매퍼 수를 줄이는 다른 옵션을 찾고 있습니다. 데이터 당 데이터 크기는 9GB입니다.

의견이나 제안이 있습니까?

감사합니다.

답변

2

내 지식에 따르면 ORC는 하이브리드에 가장 적합한 파일 형식으로 높은 압축 비율을 가지며 효율적으로 많은 양의 데이터를 처리하고 읽기가 더 빠릅니다. ORC 열로 저장되고 압축되어 작은 디스크 읽기가 발생합니다. 컬럼 형식은 하이브의 벡터화 최적화에 이상적입니다.