2017-12-12 19 views

답변

1

Parquet 파일은 저장시 원본 데이터의 스키마를 자동으로 보존합니다. Spark이나 데이터를 쓰거나 읽는 다른 시스템이라면 아무런 차이가 없습니다. 하나 또는 여러 개의 열 (정보가 파일 구조에 저장되어 있기 때문에) 저장할 때,이 컬럼의 데이터 유형이 손실 된 데이터를 분할하기 위해 사용하는 경우


. 이들 데이터 유형은 독서시 Spark에서 자동으로 추론 할 수 있습니다 (현재 숫자 데이터 유형과 문자열 만 지원됩니다).

이 자동 추론은 spark.sql.sources.partitionColumnTypeInference.enabled을 false로 설정하여 해제 할 수 있습니다.이 열은 문자열을 문자열로 읽습니다. 자세한 내용은 here을 참조하십시오.