2013-11-21 3 views
0

HDFS 또는 Amazon S3에서 입력 파일을 가져 오는 Hadoop MapReduce 작업을 실행 중입니다. 매퍼 작업이 HDFS 또는 S3에서 매퍼로 파일을 읽는 데 얼마나 오래 걸리는지 알 수 있는지 궁금합니다. 데이터 읽기 전용 시간을 알고 싶습니다. 해당 데이터의 매퍼 처리 시간은 포함되지 않습니다. 내가 찾고있는 결과는 매퍼가 HDFS 나 S3에서 얼마나 빨리 읽을 수 있는지 나타내는 매퍼 작업의 MB/초와 같습니다. 그것은 I/O 성능과 같은 것입니다.Hadoop MapReduce 매퍼 태스크가 HDFS 또는 S3에서 입력 파일을 읽는 데 걸리는 시간

감사합니다.

답변

0

아마도 단위 매퍼를 사용하고 제세동 기의 수를 0으로 설정하면됩니다.. 그런 다음 시뮬레이션에서 수행되는 유일한 작업은 I/O이므로 정렬 및 셔플이 없습니다. 또는 특별히 읽기에 집중하고 싶다면 단위 매퍼를 출력을 쓰지 않는 함수로 바꿀 수 있습니다. 다음으로 jvm 오버 헤드를 제거하기 위해 mapred.jvm.reuse=-1을 설정합니다. 완벽하지는 않지만 빠른 아이디어를 얻는 가장 쉬운 방법 일 것입니다. 당신이 그것을 정확하게하고 싶다면 당신은 자신 만의 카운터 카운터를 구현하는 것을 고려해 볼 것이지만, 현재 나는 그것에 대해 아무런 경험이 없습니다.