"들어오는 문"으로 Kafka가있는 DWH 환경에 일괄 오프라인 데이터로드

내 질문에 대한 몇 가지 상황.
당신은 여기에서 볼 수 있듯이 : 예를 들어이 토폴로지를 사용하여 HDFS"들어오는 문"으로 Kafka가있는 DWH 환경에 일괄 오프라인 데이터로드

, FTP 서버 정보 HDFS에서 호스팅되는 일괄 오프라인 데이터를로드하는 가장 좋은 방법은 무엇입니까?

파일을 수행 할 때 변경 작업이 필요 없다고 가정하고 FTP 서버에 저장된 구조와 동일한 구조로 HDFS에 저장해야합니다.

생각하십니까?

2017-11-16 boger

카프카는 기본적으로 "파일 크기"데이터를 전송하도록 정확하게 구성되지 않았습니다. 적어도 하나의 메시지에 전체 파일이있는 것은 아닙니다. 어쩌면 선을 떼어 놓을 수도 있지만, 다시 정리하고 다시 HDFS에 넣어야합니다.

제 경험상 FTP 서버에서 몇 가지 옵션을 보았습니다.

바닐라 하둡은 불필요한 소프트웨어는

추가 소프트웨어가

합니다 (이 일에 대한 용어를 모른다).

이 작은 파일이 있다면, 당신은 하둡 HDFS

2017-11-16 14:17:36

답변