2012-08-23 2 views
0

분산 캐시에 파일이 있습니다. 드라이버 클래스는 작업 출력을 기반으로이 파일을 업데이트하고 새 작업을 시작합니다. 새로운 일에는 이러한 업데이트가 필요합니다.Hadoop 분산 캐시 - 파일 수정

내가 현재하는 방식은 이전 분산 캐시 파일을 새로운 캐시 파일로 대체하는 것입니다 (업데이트 된 캐시 파일).

diffs (이전 파일과 새 파일 사이)를 파일을 필요로하는 모든 작업 추적 프로그램에 브로드 캐스팅하는 방법이 있습니까?

또는 내 작업 (첫 번째 작업)이 완료된 후 해당 작업에 관련된 모든 디렉토리/파일이 삭제되므로 결과적으로이 작업에서 생각하는 것조차도 이해가되지 않습니다 방향?

답변

0

분산 캐시는 이러한 시나리오를 염두에 두지 않은 것으로 생각합니다. 파일을 로컬에 저장하기 만하면됩니다.
당신의 경우에 나는 HDFS에 파일을 넣고 모든 이해 당사자가 거기에서 가져 가도록 제안 할 것입니다.
최적화로서이 파일에 높은 복제 계수를 부여하면 대부분의 작업에 국한됩니다.