Amazon S3에 저장된 파일에 데이터 묶음이 있으며 Redshift에서 데이터 저장소를 만드는 데 사용할 계획입니다. 내 첫 번째 질문은 Redshift에서 DV 및 데이터 마트를 모두 구축하는 것이 올바른지 아니면 S3를 데이터 레이크로 간주하고 Redshift에서 데이터 마트 만 사용해야하는지 여부입니다.Redshift 및 ETL 전략의 데이터 저장소
제 건축에서 저는 현재 이전의 S3 데이터 레이크 + 레드 쉬프트 볼트 및 마트를 고려하고 있습니다. 그러나 Redshift에서 ETL 프로세스를 직접 생성하여 Mart에 데이터를 채우거나 아니면 Amazon EMR을 사용하여 S3의 원시 데이터를 처리하고 새 파일을 생성해야하는지 여부는 알 수 없습니다. 마지막으로 마트에로드하십시오.
내 두 번째 질문은 다음과 같습니다. ETL 전략은 무엇이되어야합니까? 감사.
S3는 관계형이 아니며 기본적으로 파일을 저장하는 데 사용됩니다. Data Vault는 관계형 데이터베이스에 구현되므로 S3에서 데이터 볼트를 만들 수 없습니다. S3에서 허브, 링크, 위성을 어떻게 구축할까요? 용어를 찾고 있다면 S3가 '데이터 호수'라고 불릴 수도 있습니다. (지금은 더러움을 느낍니다.) –
@ Nick.McDermaid, 네 말이 맞아. 나는 내 건축물에서 S3 호수를 데이터 호수로 생각하고있다. 제 질문은 Redshift에서 DV 및 데이터 마트를 사용하거나 호수의 데이터로 채워진 데이터 마트 (질문을 편집합니다)에 관한 것입니다. 내가 생각하는 S3에서 데이터로 Vault를로드 한 다음 Vault에서 데이터로 마트를로드합니다. 그러나 Redshift에서 ETL 프로세스를 직접 생성 할 수 있는지 또는 S3의 파일을 처리하여 Amazon EMR과 같이해야하는지, 마트 및로드 용 데이터가있는 새 파일을 생성하는지 여부는 알 수 없습니다 레드 쉬프트에서? –
데이터 저장소가 필요한 경우 redshift로 작성해야합니다. 파일을 DV 또는 DM에로드 할 수 있습니다. DV를 원한다면보기를 통해 DV에 DV를로드하고 삽입/업데이트 문을 삭제할 수 있습니다. 즉, 파일을 다시 내보내고 가져올 필요가 없습니다. Redshift에 파일을로드하려면 redshift에 연결하고 redshift 내부에 COPY 명령을 실행하여 데이터를로드하기 위해 일종의 스케줄링/작업 실행 도구 (AWS에서든 아니든)가 필요합니다. 나는이 일을하는 프로젝트를 조사했으나 결코 시작하지 않았다. 그래서 이것은 지금 당장 나를위한 모든 이론이다. –