SLURM 클러스터에서 MPI 작업을 실행하고 결과 프로세스를 노드의 특정 코어에 고정하려고합니다. 여기에는 서로 다른 노드에있는 프로세스의 수와 다른 노드의 다른 고정 패턴이 포함될 수 있습니다. salloc을 사용하여 노드를 할당하고 mpi 프로세스에 대한 순위 파일을 만들고 mpirun을 사용하여 프로세스를 시작하면 비교적 간단합니다.srun을 통해 실행 된 MPI 작업의 프로세스 고정
유감스럽게도 시간 초과 또는 선매와 같은 이유로 할당이 취소 된 경우 노드에서 실행중인 프로세스가 종료되지만 헤드 노드에서 실행중인 mpirun이 종료되지 않고 무시할 수있는 생성에서 이동합니다 무한정 실행중인 스레드에 대해 100 %로드를 생성하도록로드합니다.
대답은 mpirun 대신 srun을 사용하여 응용 프로그램을 시작하는 것으로 보입니다. 그러나 이렇게하면 프로세스 배치를 설정하는 방법을 찾는데 어려움을 겪고 있습니다. 누구든지 어떤 제안이 있습니까?
당신이'보다는'salloc'를 사용하는 이유 모든 이유 sbatch'? 프로그램이 상호 작용 하는가? 그렇지 않으면,'sbatch'로 주 mpirun 프로세스가 종료됩니다. – damienfrancois
나는 실행중인 실험의 본질 때문에 salloc을 사용하여 많은 수의 기계를 할당 한 다음 srun을 사용하여이 할당 내에서 특정 작업을 시작합니다. 나는 salloc을 사용하여 무엇인가를 시작하기 전에 모든 필요한 기계를 가지고 있는지 확인하고자한다. –