2016-08-17 3 views
-3

로컬 디렉토리가 1 테라 바이트 정도입니다. 수백만 개의 매우 작은 텍스트 문서로 구성됩니다. ETL을 위해 각 파일을 순차적으로 반복한다면 며칠이 걸릴 것입니다. 이 데이터에 대해 ETL을 수행하는 가장 빠른 방법은 무엇이며 hdfs 또는 redis 클러스터와 같은 분산 저장소에이를로드하는 방법은 무엇입니까?로컬 파일 시스템에 많은 양의 데이터를 분산 된 저장소에 저장하는 가장 빠른 방법은 무엇입니까?

+0

사용중인 ETL 도구에서와 같이 자세한 정보를 제공해 주시겠습니까? 어떤 종류의 작업을하고 싶은지 텍스트 문서. – techprat

답변

0

일반적으로 파일 당 하나씩 여러 개의 병렬 비동기 스트림을 사용해보십시오. 얼마나 많은 요소가 몇 가지 요인에 따라 달라질 수 있습니다 (대상 엔드 포인트 수, 트래킹/읽기 데이터, 네트워크 버퍼, 오류 및 지연 시간 수 ...)