클러스터 관리에서 여러 프레젠테이션 (예 : 1, 2, 3)에서 스케줄러의 목표 중 하나는 적은 수의 컴퓨팅 노드에서 단일 작업의 작업을 분산하여 조정 된 실패를 줄이는 것입니다 함께 실패 할 가능성이있다.클러스터 성능에 대한 상호 관련 실패의 영향
왜 단일 작업 내에서 관련된 작업 실패가 바람직하지 않습니까? 내가 올바르게 이해했다면, 모든 작업은 작업이 완료되기 전에 끝내야합니다. 따라서 언뜻보기에 태스크 실패가 적은 수의 작업에만 국한되어 실패한 태스크의 재 제출으로 인해 해당 작업 만 지연이 발생하는 것이 좋습니다.
작업의 모든 작업이 단순히 동일한 작업을 복제했지만 그럴 수없는 작업 당 수백 개의 작업 (아마도 내결함성 목적으로 3-4 개의 동일한 작업이있을 수 있음)과 이러한 작업 그룹에 대한 상호 관련 오류를 줄이는 것이 왜 중요한지 이해합니다.