내지도 메서드에서 줄 번호를 가져올 수 있는지 궁금한가요? 내 입력 파일은 같은 값의 단 하나의 열입니다 FileInputFormat을 사용하여지도 메서드에서 줄 번호 가져 오기
Apple Orange Banana은 키에 접근 가능 : 1, 값 : 애플, 키 : 2, 값 : 오렌지 ... 내지도 방법에?
CDH3/CDH4 사용. KeyValueInputFormat을 사용하도록 입력 데이터를 변경하는 것은 옵션이 아닙니다. 미리 감사드립니다.
내지도 메서드에서 줄 번호를 가져올 수 있는지 궁금한가요? 내 입력 파일은 같은 값의 단 하나의 열입니다 FileInputFormat을 사용하여지도 메서드에서 줄 번호 가져 오기
Apple Orange Banana은 키에 접근 가능 : 1, 값 : 애플, 키 : 2, 값 : 오렌지 ... 내지도 방법에?
CDH3/CDH4 사용. KeyValueInputFormat을 사용하도록 입력 데이터를 변경하는 것은 옵션이 아닙니다. 미리 감사드립니다.
TextInputFormat과 같은 InputFormats의 기본 동작은 실제 줄 번호가 아닌 레코드의 바이트 오프셋을 제공하는 것입니다. 이는 주로 입력 파일이 분할 가능하고 처리 될 때 실제 줄 번호를 확인할 수 없기 때문입니다 둘 이상의 매퍼가
당신은 줄 번호가 아닌 바이트 오프셋을 생산합니다 (TextInputFormat
및 관련 LineRecordReader
에 따라) 자신의 InputFormat를 만들 수 있지만 isSplittable
방법에서 false를 반환하는 사용자의 입력 형식을 구성해야 할 것 (의미가 큰 입력 파일은 여러 매퍼가 처리하지 못합니다). 작은 파일이나 HDFS 블록 크기와 비슷한 크기의 파일이 있으면 문제가되지 않습니다. 또한 splittable 압축 형식 (예 : GZip.gz)은 전체 파일이 단일 매퍼에서 처리된다는 것을 의미합니다.
현재 구현이 수행하는 작업입니다. isSplittable가 false를 반환하는 사용자 정의 TextInputFormat/LineRecordReader입니다. 파일이 압축되지는 않았지만 (보통 텍스트 파일 임), 입력 파일은 크기가 1TB를 넘는 매우 큰 크기입니다. 난 rowid지도 분할 블록을 만드는 생각 중입니다. 어떤 생각? –