2012-09-17 2 views
1

아마존 EMR에 기본 설정으로 hadoop + hbase 클러스터가 있으므로 mapred.child.tmphbase.tmp.dir/tmp을 가리 킵니다. 우리 클러스터는 잠시 동안 실행되었고 현재 /tmp은 500Gb입니다. 실제로는 /hbase 데이터의 경우 70Gb입니다.amazon EMR에서 HBase를 실행할 때/tmp 폴더가 실제 데이터에 비해 왜 큰가요?

차이점이 너무 많습니다. /tmp 데이터 중 일부를 정기적으로 삭제해야합니까?

답변

1

조사한 결과, /tmp 데이터의 가장 큰 부분은 Amazon의 Hbase를 S3로 자동 백업하는 동안 실패한 mapreduce 작업에 의해 생성 된 것으로 나타났습니다. Google의 성공적인지도 작업 덕분에 많은 데이터가 /tmp에 남지 않습니다.

Amazon의 자동 백업을 비활성화하고 테이블 가져 오기/내보내기를 위해 Hbase 도구를 사용하여 자체 백업 스크립트를 구현하기로 결정했습니다.