한 노드에 문제가있어 해당 컴퓨터에서 실행 파일이 실패하면 대기열에있는 대부분의 작업이 실패합니다. 첫 번째 작업이 신속하게 실패했다고 선언되기 때문에 시스템이 다시 사용 가능 해지고 다시 실패하는 다른 작업을 수행하기 때문에 이런 일이 발생합니다. 그런 다음 큐가 비게되고 모든 작업이 실패 할 때까지이 작업이 계속됩니다.계산 노드에서 실행중인 작업이 실패 할 때 Microsoft HPC 클러스터에서 계산 노드를 오프라인으로 만드는 방법은 무엇입니까?
다른 노드가 나머지 작업을 처리 할 수 있도록 문제가있는 노드를 격리하는 메커니즘이 있습니까? 노드를 잘못 선언하는 것과 같은 것입니다. HPC가이를 지원합니까?