ETL

2017-03-09 3 views
0
우리는 AWS의 데이터 호수 솔루션을 만드는 방법에 대한 연구

- 비슷한 여기에 설명 있는지에 - https://aws.amazon.com/blogs/big-data/introducing-the-data-lake-solution-on-aws/ETL

우리는 S3에있는 모든 "원시"데이터를 저장 및 EMR 나에로드됩니다

을 필요에 따라 적색 변속.

Amazon Redshift에 데이터를로드 할 때 ETL 또는 ELT 방식을 사용할 것인지 제안합니다. 우리는 ETL/ELT를 위해 Talend를 사용할 것입니다.

Redshift의 S3에서 "원시"데이터를 변환하기 전에 먼저 변환해야합니까? 아니면 S3의 데이터를 변환하고 Redshift로로드해야합니까?

나는 모든 제안/조언을 부탁드립니다.

감사합니다.

답변

2

확실히 ELT.

유일한 경우는 ETL 입니다. 원시 데이터를 한 번 통과 한 다음 COPY를 사용하여 Redshift로로드 한 다음 변환하지 않습니다. 그렇다하더라도 S3에서 데이터를 이동하고 나가기 때문에이 유스 케이스가 더 빠를 것이라고 생각하지 않습니다.

정보를 필터링, 결합 및 변환해야하는 즉시 DBMS에서 처리하는 것이 훨씬 빠릅니다. 데이터 변환이 이미 DW에있는 데이터에 의존하는 경우를 맞이하면 규모가 훨씬 빨라질 것입니다.

우리는 매일 다른 DW 플랫폼에서 수백 가지의 ELT 작업을 실행하여 데이터 수집 및 변환의 대체 방법을 성능 테스트합니다. 우리의 경험에서 MPP DW의 ETL과 ELT의 차이는 2000+ 퍼센트가 될 수 있습니다.

1

레드 쉬프트의 목적에 따라 다릅니다. 귀하의 비즈니스 사례가 사용자가 Redshift (또는 Redshift를 백엔드로 사용하는 프런트 엔드 응용 프로그램)에 대해 데이터를 쿼리하는 경우 Redshift에서 ETL을 수행하지 않는 것이 좋습니다. 이 경우 비즈니스 변환을 미리 수행하고 (예 : S3-> EMR-> S3) 처리 된 데이터를 Redshift에로드하는 것이 좋습니다.