계산 노드에서 실행중인 작업이 실패 할 때 Microsoft HPC 클러스터에서 계산 노드를 오프라인으로 만드는 방법은 무엇입니까?

한 노드에 문제가있어 해당 컴퓨터에서 실행 파일이 실패하면 대기열에있는 대부분의 작업이 실패합니다. 첫 번째 작업이 신속하게 실패했다고 선언되기 때문에 시스템이 다시 사용 가능 해지고 다시 실패하는 다른 작업을 수행하기 때문에 이런 일이 발생합니다. 그런 다음 큐가 비게되고 모든 작업이 실패 할 때까지이 작업이 계속됩니다.계산 노드에서 실행중인 작업이 실패 할 때 Microsoft HPC 클러스터에서 계산 노드를 오프라인으로 만드는 방법은 무엇입니까?

다른 노드가 나머지 작업을 처리 할 수 있도록 문제가있는 노드를 격리하는 메커니즘이 있습니까? 노드를 잘못 선언하는 것과 같은 것입니다. HPC가이를 지원합니까?

출처

2017-12-28 Reza

제외 된 노드 목록에 호스트를 추가하여이 호스트에 대해 작업이 제출되지 않도록 할 수 있습니다.

이

작업 소유자 또는 클러스터 관리자가 작업 에서 작업을 지속적으로 특정 노드에 실패 할 것을 통지하는 경우, 그들은 제외 된 노드 작업 속성에 해당 노드를 추가 할 수 있습니다

이 작동하는 방법이다 . 제외 노드 한계에 도달하면 노드를 목록에 추가하려고하면 실패합니다. 자세한 내용은 see Set and Clear Excluded Nodes for Jobs을 참조하십시오.

출처

2018-01-03 08:55:59 LuckyAshnar

계산 노드에서 실행중인 작업이 실패 할 때 Microsoft HPC 클러스터에서 계산 노드를 오프라인으로 만드는 방법은 무엇입니까?

답변

관련 문제