2017-04-11 8 views
0

소스 코드 용으로 4 노드 클러스터에 SGE를 구축했습니다. Centos7의 운영 체제. 그리고 클러스터에서 간단한 작업을 제출하면 한 노드에서만 하나의 작업 만 실행되는 것으로 나타났습니다. 뭐가 문제 야? 여기 내 작업 코드 :sge는 한 노드에서 하나의 작업 만 실행할 수 있습니다.

sleep 60 
echo "done" 

이는 작업 제출 내 cmd를하다 :

-f qstat를 실행
DIR=`pwd` 
option="" 
for((i=0;i<5;i++));do 
    qsub -q multislots $option -V -cwd -o stdout -e stderr -S /bin/bash $DIR/test.sh 
    sleep 1 
done 

, 그것은 보여줍니다 : 작업에 대한 오류 메시지 감안할 때 enter image description here

+0

3 개의 노드에서 실행중인 3 개의 작업 (노드 332에서 작업 505, 노드 3 35에서 작업 506, 작업 504 노드 336)을 봅니다. 단일 노드에서 실행되는 단일 작업이 있다고 가정 해 봅시다. ? –

+0

node335에는 16 개의 슬롯이 있으며 job506에는 하나만 사용되고 대기열에는 두 개의 작업이 대기하고 있습니다. 왜 왼쪽 두 작업이 실행되지 않았습니까? – MUYOUHUIYAO

+0

그리고 파일 default/spool/qmaster/messages를 볼 때 다음과 같은 오류가 나타납니다. "작업 519.1이 작업 전에 호스트 node332에 실패했습니다. 사용되지 않은 add_grp_id를 찾을 수 없습니다." – MUYOUHUIYAO

답변

0

왜냐하면 "사용하지 않은 add_grp_id를 찾을 수 없습니다"때문입니다. sge 구성에서 gid_range가 설정되어 있는지 확인해야합니다 (전역 및 호스트마다 하나씩). 그렇지 않으면 사용되지 않은 그룹 ID 범위 여야합니다. 적어도 노드에 작업을 원하는만큼의 많은 gids.

대기열에있는 작업 중 하나에서 qalter -w v 및 qalter -w p를 실행하여 이들이 시작되지 않은 이유를 확인하십시오.