나는 단일 파일이 300MB
인 것을 고려하십시오. block
크기는 128MB
입니다. 그래서 입력 파일은 다음 청크로 나누어지고 HDFS에 저장됩니다.HDFS의 Do 블록에 Hadoop에 바이트 오프셋 정보가 저장되어 있습니까?
Block1: 128MB
Block2: 128MB
Block3: 64MB.
이제 각 블록의 데이터에는 byte offset
정보가 들어 있습니까? 즉, 블록에 다음과 같은 offset
정보가 있습니까?
Block1: 0-128MB of File
Block2 129-256MB of File
Block3: 257MB-64MB of file
그렇다면 어떻게 하둡에서 Block2 (즉, 129MB에서 시작)에 대한 바이트 오프셋 정보를 얻을 수 있습니까? 이것은 단지 이해를 돕기위한 것입니다. 블록에 관한 이런 종류의 메타 데이터를 얻기위한 hadoop 명령 줄 도구는 무엇입니까?
편집
바이트 오프셋 정보가 존재하지 않는다면, 블록에 자사의지도 작업을 수행하는 매퍼가 처음부터 선을 소비하기 시작합니다. 오프셋 정보가 있으면 매퍼는 다음 EOL을 찾은 다음 레코드 처리를 시작할 때까지 건너 뜁니다. 그래서 블록 내부에 바이트 오프셋 정보가 있다고 생각합니다.
나 자신은 아니지만, 300mb 파일을 생성하는 작은 스크립트를 작성하여 시작할 것입니다. – admdrew
@admdrew : 300MB 파일을받는 것에 대해 걱정하지 않습니다. 하지만 블록 내부의 메타 데이터 저장 방법에 대한 자세한 내용은 –
동의합니다. 북마크 됨; 누군가가 대답하기를 바랍니다. – admdrew