1

클러스터 관리에서 여러 프레젠테이션 (예 : 1, 2, 3)에서 스케줄러의 목표 중 하나는 적은 수의 컴퓨팅 노드에서 단일 작업의 작업을 분산하여 조정 된 실패를 줄이는 것입니다 함께 실패 할 가능성이있다.클러스터 성능에 대한 상호 관련 실패의 영향

왜 단일 작업 내에서 관련된 작업 실패가 바람직하지 않습니까? 내가 올바르게 이해했다면, 모든 작업은 작업이 완료되기 전에 끝내야합니다. 따라서 언뜻보기에 태스크 실패가 적은 수의 작업에만 국한되어 실패한 태스크의 재 제출으로 인해 해당 작업 만 지연이 발생하는 것이 좋습니다.

작업의 모든 작업이 단순히 동일한 작업을 복제했지만 그럴 수없는 작업 당 수백 개의 작업 (아마도 내결함성 목적으로 3-4 개의 동일한 작업이있을 수 있음)과 이러한 작업 그룹에 대한 상호 관련 오류를 줄이는 것이 왜 중요한지 이해합니다.

답변

0

나는 내가 놓친 것을 알아 냈습니다. 나는 어쨌든 사전에 결정된 작업 세트를 통해 작업을 정적으로 분할하는 작업을 생각했습니다.

실제로 클러스터 관리의 컨텍스트에서 작업은 동적으로 작업간에 분할됩니다. 따라서 작업은 근로자와 비슷합니다. 즉,로드 밸런서에 가용성을 발표 한 다음 작업의 일부분을 동적으로 할당합니다.

이 설명을 통해 모든 것이 명확합니다.

작업이 실패하면 부하 분산 장치는 작업 성능 메트릭 (일괄 처리 작업의 경우 완료 시간, 서비스 작업의 경우 대기 시간)을 약간 저하시키면서 해당 작업을 다른 작업에 간단히 다시 할당합니다). 그러나 단일 작업에서 너무 많은 작업이 실패하면 작업 성능이 너무 많이 저하됩니다. 이것이 상관 관계가 잘못된 것이 바람직한 이유입니다.