2011-10-20 9 views
0

여러 서버 로그 파일 (약 40 개)을 처리하고 Apache Hadoop을 사용하여 일련의 메트릭을 수집합니다. 이러한 파일 중 하나 이상이 일치하지 않거나 손상된 경우 해당 파일에서 수집 된 모든 메트릭을 제외하고 다른 파일에서 메트릭을 유지하고 싶습니다.Apache Hadoop - 손상시 파일 제외

이렇게하는 것이 가장 현명한 방법이라고 생각하십니까?

답변

0

파일을로드 할 때 행의 출처를 나타내는 식별자를 사용하여 각 행을 풍부하게 만드십시오 (파일 이름의 해시 일 수 있음). 손상되거나 일관성이없는 데이터를 유지해야하는 경우 (그리고 처리 만 방지하면) 해당 식별자를 기반으로 행을 제외 할 수 있습니다. 그렇지 않으면 두 번째 패스 '제거'지도/축소를 수행하여 제거 할 수 있습니다.