2013-02-15 4 views
0

TL : 이동 규칙에 따라 조정 된 불량하고 움직이는 데이터로부터 일관되고 적절한보기를 만드는 방법은 무엇입니까?품질이 낮은 데이터의 조정 :보기 대 테이블 (예정된 절차) 비교

안녕하세요 :) 데이터를 변환하고 가능하면 조정해야하는 데이터베이스를 구축하고 있습니다.

(이 일반적인 주제에 좋은 책을 알고 있다면 BTW, 게시하시기 바랍니다!)

내 특정 경우에는, 원시 데이터는 두 개의 테이블에서 비롯됩니다.

  • 포맷되지 않은 데이터 (포맷하기 : 전화 번호, 소문자로 이메일, 등)
  • 누락 된 데이터가 : 일부 필드가 누락 될 수 있습니다 여기에

    원시 테이블에 일어나는 것이다 미래

  • 업데이트 된 데이터가 풍부 : 일부 라인은
  • 새로운 데이터를 업데이트 : 새로운 라인

를 삽입 조정 부분은 부분적이거나 테이블에 없거나 다른 테이블에없는 필드 (ID, 우편 주소 등)를 사용합니다. 몇 가지 조정 규칙이 사용됩니다. 모두 SQL로 표현할 수 있습니다. 그들 중 일부는 GROUP BY (보기를 업데이트 할 수 없게 함)을 사용하고 있습니다.

제약은 다음과 같습니다

  • 기본 테이블을 업데이트 할 수 있습니다. 새로운 데이터는 대부분 72 시간 후 수정되어야합니다.
  • 새 데이터는 허용 가능한 성능을 가진 쿼리 가능한 형식 (테이블 또는 뷰 또는 구체화 된 뷰)이어야합니다.
  • 새 데이터의 줄은 시간이 지남에 따라 약간의 일관성을 가져야합니다 (줄이거 나 다른 곳으로 보낸 것으로 표시하기 위해 등).
  • 새 데이터의 일부 줄에는 수작업으로 풍부해질 수 있습니다.
  • 새 데이터의 줄에는 조정 된 시간 (업데이트 된 경우 업데이트 시간 포함)이 포함되어야합니다.
  • 조정 방법을 업데이트 할 수 있습니다. 새로운 데이터는 대부분 72 시간 후 수정되어야합니다.

뷰를 사용하거나 저장 프로 시저로 업데이트 된 테이블을 사용하여 뷰를 결정할 수 없습니다.

뷰는 원시 데이터의 변경 사항과 조정 규칙의 업데이트를 잘 처리합니다. 그러나 그것은 새로운 라인의 주석을 지원하지 않을 것이다.

저장 프로 시저로 업데이트 된 테이블은 해당 우물을 처리하지만 조정 규칙이 변경되거나 원시 데이터가 업데이트 될 때 복잡한 처리가 필요합니다.

아마도 뷰를 사용하고 테이블의 기본 키가 새로운 데이터의 안정된 필드의 해시 인 테이블을 가지고 있다고 생각했습니다.

도구는 다음과 같습니다 오라클 10g (플러스 자바, 필요한 경우) 텍스트의 벽

죄송합니다.

질문은 무엇입니까?

답변

0

원시 테이블의 모든 데이터를 두 개 이상의 다른 테이블에 삽입하십시오. 새 테이블은 관계형 이론으로 적절히 설계되어 효율적으로 쿼리 할 수 ​​있습니다.

+0

감사합니다. 효율성의 문제는 여기에서 나의 주요 관심 사항이 아닙니다. 가장 걱정스러운 것은 시간이 지남에 따라 바뀔 수있는 규칙을 통해 전파되는 데이터의 품질입니다. – BenoitParis