2017-04-10 10 views
0

sbatch을 통해 작업을 제출하면 증분 순서에 따라 주어진 작업으로 pid가 전송됩니다. 이 순서는 내 관찰에 근거하여 1에서 다시 시작합니다.Slurm : 제출 된 작업의 pid를 sbatch를 통해 제공하거나 변경할 수 있습니까

sbatch -N1 run.sh 
Submitted batch job 20 

// 가능하면 목표는 제출 된 배치 작업의 ID를 변경합니다.

[Q1] 예를 들어 slurm에서 실행중인 작업이 있습니다. 노드를 재부팅하면 작업이 계속 실행됩니까? 그것의 pid는 이전처럼 업데이트되거나 유지됩니까?

[Q2] 클러스터 소유자가 제공하려는 고유 한 ID로 제출 된 작업의 PID를 제공하거나 변경할 수 있습니까?

귀중한 시간과 도움에 감사드립니다.

답변

2

노드에 장애가 발생하면 매개 변수 (slurm.conf)가 허용하는 경우 작업이 대기열에 추가됩니다. 작업을 관리하기위한 데이터베이스의 유일한 식별자이기 때문에 이전에 시작한 실행과 동일한 작업 ID를 가져옵니다. (사용자는 --no-requeue sbatch 매개 변수를 사용하여 재구성을 무시할 수 있습니다.)

작업 ID를 변경할 수 없습니다.

+0

내 'slurm.conf'파일에'JobRequeue = 1'이 주석 처리되었습니다. 내가 그것을 알 수있게 만들면, 큐잉이 이해된다는 것을 알게 될 것이지만, 그 일은 처음부터 시작될 것이고, 종료되기 전에 남은 곳에서 계속되지 않을 것입니다. 노드를 재시작 한 후에'--no-requeue'가 발생하면 작업이 다시 정상적으로 실행되지 않습니까? @ciaron – Alper

+0

'JobRequeue = 0' 또는'--no-requeue'를 사용하면 작업이 자동으로 다시 시작되지 않습니다. 그렇지 않으면 작업이 처음부터 다시 시작됩니다. 작업을 중단 된 위치에서 다시 시작하려면 [BLCR] (https://slurm.schedmd.com/checkpoint_blcr.html)을 사용하여 검사 점/재시작을 조사해야 할 수 있습니다. – ciaron