Apache Hadoop Wiki에는 "SequenceFile은 2 진 키/값 쌍으로 구성된 플랫 파일"이라고 나와 있습니다. Wiki는 키가 포함 된 실제 파일 형식을 보여줍니다. SequenceFiles는 "Uncompressed", "Record Compressed"및 "Block Compressed"와 같은 여러 형식을 지원합니다. 또한 사용할 수있는 다양한 압축 코덱이 있습니다. 파일 형식 및 압축 정보가 파일 헤더에 저장되므로 응용 프로그램 (예 : Mapper 및 Reducer 작업)은 파일을 올바르게 처리하는 방법을 쉽게 결정할 수 있습니다.
는 또한 맵리 듀스 매퍼 및 감속기 인제 모두가 방출 것을 명심 : 당신이 org.apache.hadoop.io.SequenceFile.Writer
클래스에 append()
방법은 키와 값을 모두 필요로 볼 수 있습니다 아래의 이미지에서
키 - 값 쌍 따라서 SequenceFile에 저장된 키를 사용하면 Hadoop이 이러한 유형의 파일로 매우 효율적으로 작동 할 수 있습니다. 그래서 한마디에
:
- SequenceFiles는 항상 "값"외에 "키"를 포함합니다.
- 동일한 데이터를 포함하는 두 개의 SequenceFile은 반드시 크기 또는 실제 바이트의 관점에서 완전히 동일하지는 않습니다. 압축은 압축 사용 여부, 압축 유형 및 압축 코덱에 따라 다릅니다.
- SequenceFiles를 만들고 HDFS에 추가하는 방법은 주로 달성하려는 목표에 따라 다릅니다. SequenceFiles는 일반적으로 특정 목표를 효율적으로 수행하는 수단이며 최종 결과는 거의 없습니다.