내 문제를 해결하기위한 기술과 방법을 결정하는 것이 혼란 스럽습니다.빠른 성능을 위해 Hadoop 도구를 선택하는 방법
나는 RDBMS에서 생성되는 약 4TB의 데이터를 담고있는 5000 개의 테스트 파일을 가지고 있으며, 5k 개의 텍스트 파일을 준비하는 데 거의 4 일의 시간이 걸린다.이 시간 문제를 해결하기 위해 나는 5k 텍스트 파일 데이터를 Hadoop 시스템에 저장하여 데이터를 더 빠르게 읽을 수 있고 텍스트 파일을 더 빠른 속도로 생성 할 수 있습니다.
나는 데이터가 증가 될 것이지만 처음에는이 활동을해야하지만 매월 5k 개의 텍스트 파일을 생성해야합니다.
보통 전체 테이블 스캔을 수행해야하며 5KB 파일을 준비하려면 일부 조인을 수행해야 할 수도 있습니다.
이 경우 어떤 도구를 고려해야하는지 알려주세요. MapReduce 및 HBase 또는 HIVE 테이블 또는 다른 것.
전체 테이블 스캔은 HIVE를 사용하십시오. –