sbatch
을 통해 작업을 제출하면 증분 순서에 따라 주어진 작업으로 pid가 전송됩니다. 이 순서는 내 관찰에 근거하여 1에서 다시 시작합니다.Slurm : 제출 된 작업의 pid를 sbatch를 통해 제공하거나 변경할 수 있습니까
sbatch -N1 run.sh
Submitted batch job 20
// 가능하면 목표는 제출 된 배치 작업의 ID를 변경합니다.
[Q1] 예를 들어 slurm에서 실행중인 작업이 있습니다. 노드를 재부팅하면 작업이 계속 실행됩니까? 그것의 pid는 이전처럼 업데이트되거나 유지됩니까?
[Q2] 클러스터 소유자가 제공하려는 고유 한 ID로 제출 된 작업의 PID를 제공하거나 변경할 수 있습니까?
귀중한 시간과 도움에 감사드립니다.
내 'slurm.conf'파일에'JobRequeue = 1'이 주석 처리되었습니다. 내가 그것을 알 수있게 만들면, 큐잉이 이해된다는 것을 알게 될 것이지만, 그 일은 처음부터 시작될 것이고, 종료되기 전에 남은 곳에서 계속되지 않을 것입니다. 노드를 재시작 한 후에'--no-requeue'가 발생하면 작업이 다시 정상적으로 실행되지 않습니까? @ciaron – Alper
'JobRequeue = 0' 또는'--no-requeue'를 사용하면 작업이 자동으로 다시 시작되지 않습니다. 그렇지 않으면 작업이 처음부터 다시 시작됩니다. 작업을 중단 된 위치에서 다시 시작하려면 [BLCR] (https://slurm.schedmd.com/checkpoint_blcr.html)을 사용하여 검사 점/재시작을 조사해야 할 수 있습니다. – ciaron