2017-03-13 4 views
1

모든 SLURM 노드를 유지 관리 준비를 위해 "배수"로 설정 한 다음 노드가 재개 될 때까지 모든 새 작업이 보류 상태를 유지합니다. 유지 관리 창 전에이 작업을 수행하므로 모든 실행중인 작업이 완료 될 수 있습니다. 그건 꽤 많은 클러스터 시간을 낭비합니다. 이 주어진 시간보다 짧아 지도록 노드가 --time=x 인수와 함께 배치 작업 만 수락하도록 지정하는 방법이 있습니까? 예를 들어 금요일 밤에 유지 보수가 중단되는 경우 수요일에 대기열의 상단에 도달하는 작업이 --time=2-0 일 때 실행되지만 목요일에 --time=2-0과 함께 제출 된 작업은 실행되지 않습니다.지정된 시간만큼 끝나는 런타임 제한이있는 작업을 허용 하시겠습니까?

답변

3

모든 노드를 예약해야합니다. (테스트되지 않은) 다음 명령은 10 일 3 월 31 일부터 루트 만이 가능한 모든 노드에 대한 예약을 만들 것이다 트릭을

scontrol create reservation reservationname="maintenance1" start=03/31T08:00 Duration=10-00 Nodes=ALL Users=root

이 작업을 수행해야합니다. 유지 관리가 완료되면 일부 작업을 제출하여 클러스터가 예상대로 작동하는지 테스트 할 수있는 좋은 방법이기도합니다.

당신과 함께 예약을 제거 할 수 있습니다

scontrol remove reservationname="maintenance1"

+0

가 보이는 내가 원하는처럼! '--time' 제한없이 제출 된 작업은 어떻게됩니까? 파티션의 최대 시간을 가정합니까? – Ian

+0

예약의 시작은'starttime'으로 설정되고 'YYYY-MM-DD [THH : MM [: SS]]'형식을 취합니다. – damienfrancois

+0

'flags = MAINT' 매개 변수를 사용하여 계정에 알릴 수 있습니다 유지 보수 시간입니다 – damienfrancois