2012-11-01 3 views
0

여러 작업이 동시에 실행될 수있는 유스 케이스가 있습니다. 모든 작업의 ​​출력은 중복이없는 HDFS의 공통 마스터 파일 (키 값 쌍을 포함)과 병합해야합니다. 나는이 경우 자랄 수있는 경쟁 조건을 피하는 방법을 모르겠습니다. 예를 들어 작업 1과 작업 2는 모두 동일한 값을 마스터 파일에 동시에 쓰므로 중복됩니다. 이것에 대한 당신의 도움을 감사하십시오.hadoop에서 여러 맵 축소 작업을 동기화하십시오.

답변

1

Apache Hadoop은 같은 파일에 대한 병렬 쓰기를 지원하지 않습니다. 다음은 reference입니다.

HDFS의 파일은 한 번만 기록되며 한 번에 하나의 작성자 만 있습니다.

그래서 여러 맵/작업은 같은 파일에 동시에 쓸 수 없습니다. 여러 작업의 출력을 병합하려면 다른 작업/쉘 또는 다른 프로그램을 작성해야합니다.

+0

Praveen, 추가 기능을 사용하려고 생각했습니다. 이것에 대한 당신의 생각을 알려주세요. –

+0

어떻게 여러 작가와 작업을 추가 할 것인가? –