아파치 NiFi 또는 Streamsets로 조인을 수행 할 수 있는지 알아 내려고했습니다. 그래서 나는 HBase에서 주기적으로 읽을 수 있으며, 다른 테이블과 결합하여 Hive 테이블에 몇 개의 필드를 작성합니다.HBase에서 읽고, 플랫 파일의 콘텐츠와 결합하여 하이브에 쓰기위한 NiFi 또는 스트림 세트
또는이 작업을 지원하는 다른 워크 플로 관리자 도구가 있습니까?
아파치 NiFi 또는 Streamsets로 조인을 수행 할 수 있는지 알아 내려고했습니다. 그래서 나는 HBase에서 주기적으로 읽을 수 있으며, 다른 테이블과 결합하여 Hive 테이블에 몇 개의 필드를 작성합니다.HBase에서 읽고, 플랫 파일의 콘텐츠와 결합하여 하이브에 쓰기위한 NiFi 또는 스트림 세트
또는이 작업을 지원하는 다른 워크 플로 관리자 도구가 있습니까?
저는 Streamsets에 익숙하지 않지만 NiFi를 도우 려합니다. 플랫 파일은 정적입니까? 그렇다면 값을 곧바로 대체하려고하십니까? 이를 위해서는 ReplaceTextWithMapping 프로세서를 사용할 수 있어야합니다. 직선 대체가 아닌 경우 DistributedMapCache에 플랫 파일의 값을 미리 채운 다음 FetchDistributedMapCache을 사용하여 HBase 레코드를 조회 할 수 있습니다.
그 밖의 모든 것이 실패하면 Groovy, Javascript 또는 Jython과 같은 스크립팅 언어에 익숙하면 ExecuteScript 또는 InvokeScriptedProcessor을 사용하여 "조인"부분을 작성할 수 있습니다.
CSV 파일, 속성 파일 및 메모리 내 조회를 지원하는 조회/강화 프로세서에 open Jira case (약간의 진전이 있음)이 있습니다.
감사합니다. FetchDistributedMapCache가 내가 찾고있는 것 같습니다. 주기적으로 할 수 있습니까? 예를 들어 나는 새 행이 채워지고 테이블을 유지하고 이전 시간 데이터에 대해 매시간 한 번 집계하려고합니다 (다른 정적 테이블에 조인을 함). 따라서 NiFi는 어느 시간이 이미 집계되었는지, 나머지 시간 동안 집계해야하는지 기억합니까? 그리고 집계는 소수 열에 SUM/AVG를가집니다. –
집계를 수행하지 않으므로 캐시는 조회 전용입니다. 곧 출시 될 NiFi 1.2.0 버전에서는 UpdateAttribute를 사용하여 파일이 흐를 때 실행 횟수/총계를 유지할 수 있습니다 – mattyb