우리 조직의 평균 활동 웹 사이트는 평균 약 1000 건입니다. HDFS/Hive에 이러한 로그를 스트리밍 할 계획입니다.flume을 사용하여 평균 활성 웹 사이트를 HDFS로 스트리밍합니다. 그것은 효율적입니까?
이제는 작은 파일 작업에 대한 HDFS 효율성에 대한 질문이 있습니다. 얼마나 시간이 지나면 파일 크기가 커지는 지 알 수 있습니다. Hadoop은 대용량 파일을 효율적으로 처리합니다. 여러 개의 작은 파일을 프로덕션 hadoop 시스템에로드하는 것이 좋습니까?
hdfs가 다양한 작은 파일로 어지럽게 섞인 경우 어떤 영향을 미칩니 까?