우리는 은행 용 데이터웨어 하우스를 작업 중이며 스테이징 테이블, 스타 스키마 및 ETL의 표준 Kimball 모델을 거의 준수하여 프로세스를 통해 데이터를 가져 왔습니다.데이터웨어 하우스의 스테이징 영역 내 구조
Kimball은 데이터를 스타 스키마에 넣을 준비가 될 때까지 가져 오기, 치료, 처리 및 모든 작업을위한 준비 영역 사용에 대해 이야기합니다. 실제로 이것은 일반적으로 원본에서 수정 사항이 거의 또는 전혀없는 표 집합으로 데이터를 업로드 한 다음 별표 스키마로 이동할 준비가 될 때까지 중간 표를 통해 데이터를 선택적으로 가져 오는 것을 의미합니다. 그것은 단일 엔티티에 대한 많은 작업입니다. 여기서는 하나의 책임이 없습니다.
이전 시스템 내가 가진의 범위, 테이블의 다른 세트 사이의 구분을 한에 일한 :
- 업로드 테이블 :
- 수정되지 않은 원시 소스 시스템의 데이터를, 스테이징 테이블 : 중간 처리, 유형화 및 클렌징
- 웨어 하우스 테이블
당신은 별도의 스키마에이 충실하고 아카이브/백업/보안 등 StagingInput가있는 곳에 다른 사람의 하나는 창고에 근무하고있다과 StagingOutput, 비슷한 이야기에 대한 서로 다른 정책을 적용 할 수 있습니다 . 팀 전체는 데이터웨어 하우스와 그렇지 않은 경우 모두 많은 경험을 가지고 있습니다.
그러나이 모든 경우에도 불구하고 Kimball과 웹을 살펴보면 스테이징 데이터베이스에 어떤 종류의 구조를 부여하는 것에 대해 서면으로는 전혀없는 것처럼 보입니다. 킴볼이 우리 모두가이 엄청나게 깊은 어둠의 구조화되지 않은 데이터 풀로 발걸음을 옮겨 다닐 것이라고 믿는다면 용서받을 수 있습니다.
물론 스테이징 영역에 구조를 추가하고 싶다면 어떻게해야하는지 분명히 분명하지만, 그것에 대해 쓰여진 것도없는 것처럼 보입니다.
그래서 다른 사람들은 무엇을하고 있습니까? 이 큰 구조화되지 않은 난장판을 준비하고 있습니까? 아니면 민속에 재미있는 디자인이 있습니까?
호기심, 아무도 관심을 보이지 않는 영역, 어떤 규모의 모든 BI 프로젝트에 영향을 미치는 영역. 나는 업로드와 스테이징의 차이가 최소한 우리에게 어떤 구조를 줄 것이라고 생각합니다. – NeedHack