6
인터넷에서이 주제에 대한 답변을 검색하고 읽을 때 혼란스러운 메시지가 표시됩니다. 누구나 자신의 경험을 공유 할 수 있습니까? 나는 czv가 gzipped 아니라는 사실을 알고있다. 그러나 Parquet 대 내부 구조는 어쩌면 Parquet 대 csv와 완전히 다른 경우 일까?스파크 용으로 HDFS에서 분할 할 수있는 파킹 파일이 있습니까?
인터넷에서이 주제에 대한 답변을 검색하고 읽을 때 혼란스러운 메시지가 표시됩니다. 누구나 자신의 경험을 공유 할 수 있습니까? 나는 czv가 gzipped 아니라는 사실을 알고있다. 그러나 Parquet 대 내부 구조는 어쩌면 Parquet 대 csv와 완전히 다른 경우 일까?스파크 용으로 HDFS에서 분할 할 수있는 파킹 파일이 있습니까?
GZIP 압축을 사용하는 파킹 파일은 실제로 분할 가능합니다. 이것은 Parquet 파일의 내부 레이아웃 때문입니다. 이들은 항상 사용 가능한 압축 알고리즘과 독립적으로 분할 가능합니다.
이 사실은 다음과 같은 부분으로 나누어 마루 파일의 디자인에 주로 기인한다 :
당신은 여기에 대한 자세한 설명은 찾을 수 귀하의 답변에 대한 https://github.com/apache/parquet-format#file-format
감사합니다. 그냥 확인하고 싶어. 이 파일들은 기술적으로 .gz.parquet 파일 일 것이고 parquet.gz 파일은 아닙니다, 맞습니까? Microsoft Polybase와 같은 제품은 외부에서 마루판 형식으로 데이터를 내보낼 때 .gz 파일을 생성하며 자체 또는 파일 청크 내부에서 압축 된 파일인지 아직 확인하지 않았습니다. – YuGagarin
예, 'gz.parquet' 여야합니다. 압축은 쪽모이 세공의 내부에서 이루어져야한다. 처음에는 마루를 생성하고 그 위에 GZIP를 실행하는 도구가있는 경우 실제로는 여기 엔 잘못된 파케 파일입니다. 파켓의 경우 형식의 일부가 압축되지 않는 것이 필수적입니다 (예 : 헤더). 이 부품들은 작고 (종종 약 1-2 개의 KiB) 압축하면 성능이 크게 저하됩니다. – xhochy