2

단일 시스템에서 여러 작업자 데몬을 실행하려고합니다. damienfrancois's에 따라 what is the minimum number of computers for a slurm cluster에 답변 할 수 있습니다. 문제는 현재 하나의 시스템에서 오직 하나의 작업자 데몬 만 실행할 수 있습니다. 예를여러 작업자 데몬 실행 SLURM

을 위해 내가 linux2의를 실행할 때

sudo slurmd -N linux1 -cDvv 
sudo slurmd -N linux2 -cDvv 

linux1 서버가 다운 실행합니다. 하나의 시스템에서 여러 작업자 데몬을 실행할 수 있습니까? 여기 내 slurm.conf 파일

답변

3

당신의 의도는 단지 Slurm의 동작을 테스트 할 것 같다, 나는 당신이 동일한 시스템에 더미 계산 노드를 만들 수 있습니다 프런트 엔드 모드을 사용하는 것이 좋습니다 것입니다. 자신의 FAQ에서

, 당신은 더 많은 정보를 가지고 있지만, 기본적으로이 모드로 작동하도록 설치를 구성해야합니다 slurm.conf

NodeName=test[1-100] NodeHostName=localhost 

의 노드를

./configure --enable-front-end 

하고 구성을 이 가이드에서는 포트를 변경하여 동일한 노드에서 둘 이상의 실제 데몬을 시작하는 방법을 설명하지만 테스트 목적으로는 필요하지 않습니다.

행운을 빈다.

+0

위와 같이 설치를 구성했지만 여전히 하나의 작업자 데몬이 실행 중입니다. –

+0

@PaulSchimmer 예! 그러나 모든 노드를 에뮬레이션합니다. 'sinfo'를 실행하면 보게 될 것입니다. – siserte

+0

다음과 같은 오류가 계속 발생합니다 :'Slurm stream socket 연결 오류가 127.0.1.1 : : Connection refused' 이유가 무엇입니까? – Alper

0

나는 당신과 같은 문제가있어, 내가 언급 한 바와 같이 로그 파일의 경로를 수정하여 해결했다. multiple slurmd support. 예를

SlurmdLogFile=/var/log/slurm/slurmd.log 
SlurmdPidFile=/var/run/slurmd.pid 
SlurmdSpoolDir=/var/spool/slurmd 

에 대한 slurm.conf에서 는

SlurmdLogFile=/var/log/slurm/slurmd.%n.log 
SlurmdPidFile=/var/run/slurmd.%n.pid 
SlurmdSpoolDir=/var/spool/slurmd.%n 

지금 여러 slurmd을 시작할 수 있어야합니다.

참고 : 나는 당신의 slurm conf로 시도했지만, 하나의 노드 이름 대신 두 개의 NodeName을 정의하고 각 노드에 사용할 포트를 추가하는 것과 같은 몇 가지 매개 변수가없는 것 같습니다. 내게 맞는이

# COMPUTE NODES 
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN 
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN 
# PARTITIONS 
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP 
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP