1
하이브의 파일 형식이 HCatalog를 사용하는 pigScript에서 효율적으로 사용될 수 있는지 설명 할 수 있습니까?Apache pig - Best Hive 파일 형식
현재 어떤 하이브 파일 형식이 효율적인지 이해하고 싶습니다. 현재 우리는 날짜를 기준으로 파티션 된 하이브 테이블을 가지고 있으며 기본 파일은 순차 파일입니다. 80 일간의 데이터를 읽으면 약 70,000 개의 매퍼가 생성됩니다. 맵 분할 크기를 2GB로 변경하려고 시도했지만 많이 줄이지는 않았습니다.
그래서 순차 파일 대신 매퍼 수를 줄이는 다른 옵션을 찾고 있습니다. 데이터 당 데이터 크기는 9GB입니다.
의견이나 제안이 있습니까?
감사합니다.