나는 지난 10 일 동안 HDFS에서 엄청난 양의 디스크 사용량을보고있었습니다. HDFS 서비스 사용에 대한 Cloudera Manager 및 Disk Usage 차트의 Hosts 탭에있는 DataNode 호스트에서 볼 수 있듯이 ~ 7TB에서 ~ 20TB로 거의 3 배가되었습니다. 처음에 나는 이것에 대한 이유가 내가 업그레이드에서 잘못 했었다고 생각하고 있었다. 나는 그 10 일 중 6 일에 CM과 CDH에 수행했지만 이전에 발생하기 시작했다는 것을 깨달았다.최근 HDFS 사용 통계 (폴더, 파일, 타임 스탬프)는 어디에서 볼 수 있습니까?
나는 Cloudera Manager의 File Browser를 먼저 확인했지만 그 전에는 크기 번호 사이에 차이가 없음을 확인했습니다. 나는 또한 지난 4 일간의 디스크 사용량 보고서를 가지고 있는데 아무런 인상이 없었다고 말합니다.
hdfs dfsadmin -report
도 동일한 결과를 반환합니다.
Linux의 dfs 폴더가 증가하는 사용량을 확인하지만 수백만 개의 파일이 있고 수천 개의 중첩 폴더에서 마지막으로 수정 된 파일을 검사하는 방법을 모르므로 변경된 사항을 알 수 없습니다. 파일을 찾더라도 HDFS에있는 파일이 무엇인지 알 수 없습니다.
그런데 최근에 HDFS의 다른 사용자가 대용량 파일을 분할하고 있다는 정보를 받았습니다. 그들은 거의 모든 데이터 중 2/3을 소유하고 있습니다. HDFS 블록 크기보다 작은 크기로 분할하면 증가 할 수 있습니까? 그렇다면 왜 브라우저/보고서에서 볼 수 없습니까?
최근에 HDFS 또는 내가 확인할 수있는 다른 폴더와 파일이 수정되었는지 확인할 수있는 방법이 있습니까? 어떤 제안이나 의견도 감사합니다.
사용중인 Cloudera Manager의 버전을 알 수는 없지만 [Cloudera Navigator Analytics] (https://www.cloudera.com/documentation/enterprise/latest/topics/datamgmt_analytics.html)를 제공 했습니까? 시험? 직관적 인 GUI를 사용하여 HDFS를 신속하게 분석 할 수 있습니다. –
CM 버전은 5.10.0입니다. 예, Cloudera Navigator가 있습니다. 하지만 검색 섹션에 파일에 대한 정보가없는 것 같습니다. 즉 지난 주, 달 또는 심지어 년 내에 작성된 파일에 대해 문자 그대로 0 개의 결과를 찾습니다. 감사장은 감사합니다. 어쩌면 내가 뭔가 잘못하고있는 것 같아서 더 자세히 살펴볼 것입니다. 이전에 실행 중이 었는지 확실하지 않지만 업그레이드하는 동안 Navigator가 작동하는지 확인했습니다. – burakongun