나는 당신과 같은 문제가있어, 내가 언급 한 바와 같이 로그 파일의 경로를 수정하여 해결했다. multiple slurmd support. 예를
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
에 대한 slurm.conf에서 는
SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n
지금 여러 slurmd을 시작할 수 있어야합니다.
참고 : 나는 당신의 slurm conf로 시도했지만, 하나의 노드 이름 대신 두 개의 NodeName을 정의하고 각 노드에 사용할 포트를 추가하는 것과 같은 몇 가지 매개 변수가없는 것 같습니다. 내게 맞는이
# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP
위와 같이 설치를 구성했지만 여전히 하나의 작업자 데몬이 실행 중입니다. –
@PaulSchimmer 예! 그러나 모든 노드를 에뮬레이션합니다. 'sinfo'를 실행하면 보게 될 것입니다. – siserte
다음과 같은 오류가 계속 발생합니다 :'Slurm stream socket 연결 오류가 127.0.1.1 : : Connection refused' 이유가 무엇입니까? –
Alper