대용량 스트림을 제거하기 위해 hbase을 사용하고 있습니다. 스트림 키의 각 메시지에서 고유 한 식별자를 사용하여 행 키로 사용하는 것이 효과적이라고 생각했습니다. 그러나 최종 사용자는 내가 만든 출력 스트림에서 중복 데이터를 계속보고 있습니다. 유일하게 가능한 원인은 중복 메시지가 동시에 소비된다는 것입니다.대용량 데이터가있는 hbase에 대해 중복 제거
나는 스트림에서 별도의 프로세스로 채워지는 동일한 큐를 소비하는 약 50 개의 스레드가 있습니다. 이것이 발생하지 않도록하는 방법이나 적절한 탈락을 수행하는 더 좋은 방법이 있습니까? 이 과정에는 새 레코드를 삽입하기 전에 GET을 수행해야합니다.