1
동일한 모델 (블랙 박스)의 300 개의 작업을 실행해야합니다. 그러나 때로는 세그먼트 오류는 다음과 같은 오류 메시지와 함께 모델 내부에서 발생작업이 실패하면 SLURM의 srun 작업을 자동으로 재구성 할 수 있습니까?
srun: error: nodexyz: task 0: Segmentation fault
클러스터는 자원 관리자로 SLURM을 사용하고 난 실패하면 자동으로이 작업을 다시 대기하고 싶다.