TL : 이동 규칙에 따라 조정 된 불량하고 움직이는 데이터로부터 일관되고 적절한보기를 만드는 방법은 무엇입니까?품질이 낮은 데이터의 조정 :보기 대 테이블 (예정된 절차) 비교
안녕하세요 :) 데이터를 변환하고 가능하면 조정해야하는 데이터베이스를 구축하고 있습니다.
(이 일반적인 주제에 좋은 책을 알고 있다면 BTW, 게시하시기 바랍니다!)
내 특정 경우에는, 원시 데이터는 두 개의 테이블에서 비롯됩니다.
- 포맷되지 않은 데이터 (포맷하기 : 전화 번호, 소문자로 이메일, 등)
- 누락 된 데이터가 : 일부 필드가 누락 될 수 있습니다 여기에
원시 테이블에 일어나는 것이다 미래
- 업데이트 된 데이터가 풍부 : 일부 라인은
- 새로운 데이터를 업데이트 : 새로운 라인
를 삽입 조정 부분은 부분적이거나 테이블에 없거나 다른 테이블에없는 필드 (ID, 우편 주소 등)를 사용합니다. 몇 가지 조정 규칙이 사용됩니다. 모두 SQL로 표현할 수 있습니다. 그들 중 일부는 GROUP BY
(보기를 업데이트 할 수 없게 함)을 사용하고 있습니다.
제약은 다음과 같습니다
- 기본 테이블을 업데이트 할 수 있습니다. 새로운 데이터는 대부분 72 시간 후 수정되어야합니다.
- 새 데이터는 허용 가능한 성능을 가진 쿼리 가능한 형식 (테이블 또는 뷰 또는 구체화 된 뷰)이어야합니다.
- 새 데이터의 줄은 시간이 지남에 따라 약간의 일관성을 가져야합니다 (줄이거 나 다른 곳으로 보낸 것으로 표시하기 위해 등).
- 새 데이터의 일부 줄에는 수작업으로 풍부해질 수 있습니다.
- 새 데이터의 줄에는 조정 된 시간 (업데이트 된 경우 업데이트 시간 포함)이 포함되어야합니다.
- 조정 방법을 업데이트 할 수 있습니다. 새로운 데이터는 대부분 72 시간 후 수정되어야합니다.
뷰를 사용하거나 저장 프로 시저로 업데이트 된 테이블을 사용하여 뷰를 결정할 수 없습니다.
뷰는 원시 데이터의 변경 사항과 조정 규칙의 업데이트를 잘 처리합니다. 그러나 그것은 새로운 라인의 주석을 지원하지 않을 것이다.
저장 프로 시저로 업데이트 된 테이블은 해당 우물을 처리하지만 조정 규칙이 변경되거나 원시 데이터가 업데이트 될 때 복잡한 처리가 필요합니다.
아마도 뷰를 사용하고 테이블의 기본 키가 새로운 데이터의 안정된 필드의 해시 인 테이블을 가지고 있다고 생각했습니다.
도구는 다음과 같습니다 오라클 10g (플러스 자바, 필요한 경우) 텍스트의 벽
죄송합니다.
질문은 무엇입니까?
감사합니다. 효율성의 문제는 여기에서 나의 주요 관심 사항이 아닙니다. 가장 걱정스러운 것은 시간이 지남에 따라 바뀔 수있는 규칙을 통해 전파되는 데이터의 품질입니다. – BenoitParis