우리는 실시간 데이터웨어 하우징을 위해 Amazon Redshift를 평가하고 있습니다.수행 방법 Amazon Redshift로 실시간로드 하시겠습니까?
데이터는 Java 서비스를 통해 스트리밍되고 처리되며 데이터베이스에 저장되어야합니다. 행 단위로 처리 (실시간)하며 트랜잭션 당 하나의 행만 삽입합니다.
Amazon Redshift에 실시간 데이터를로드하는 가장 좋은 방법은 무엇입니까?
JDBC를 사용하여 INSERT INTO
문을 수행하거나 Kinesis Firehose 또는 AWS Lambda를 사용합니까?
둘 다 중간 계층으로 Amazon S3를 사용하고 "1 행"삽입이 아닌 더 큰 데이터 세트에 적합한 COPY
명령을 수행하기 때문에 이러한 서비스 중 하나를 사용하는 것에 대해 우려하고 있습니다.
거의 모든 차원 테이블 (100k-600k 행)이있는 사실 테이블에는 약 1TB의 데이터가 있으며 AWS Redshft는 적절한 솔루션으로 보입니다. 그러나 실시간 로딩이 필수적입니다. – fenix
또 다른 옵션은 Presto를 사용하여 Amazon에 저장된 데이터를 스캔하는 [Amazon Athena] (http://docs.aws.amazon.com/athena/latest/ug/what-is.html) (현재 제한적으로 배포 중입니다)입니다. S3. S3에 데이터를 저장 한 다음 Athena 쿼리를 실행하면됩니다. 데이터를 압축하고 분할하거나 ORC/여기 엔 나무 마루 형식으로 저장할 수 있으면 가장 잘 작동합니다.쿼리가 아니라 업데이트가 필요합니다. S3에 데이터를 직접 저장하여 데이터를 업데이트하십시오. –