워크 스테이션에서 TORQUE v6.1.0을 사용하는 노드 상태 = down

우분투 16.04 워크 스테이션에 Torque 6.1.0을 설치했지만 설치시 기계에 몇 개의 코어와 스레드가 있는지 인식하지 못하는 것 같습니다. 설정 한 유일한 노드는 "state = down"상태이고 어떤 작업이든 "올바른 유형의 노드가개가 아닙니다"라는 오류를 트리거합니다. 사실, 워크 스테이션은 2 개의 프로세서에 56 개의 스레드 또는 28 개의 물리적 코어 을 가지고 있으며, 공유 컴퓨팅 작업을 위해 단지 54 개의 스레드 또는 27 개의 물리적 코어 만 사용하려고합니다. 이것이 설치하는 동안 내가 옳은 일을하고 있다면 Torv6.0부터 시작하는 cgroup 또는 NUMA의 구성과 관련이 있다는 것을 깨달았습니다. 실제로 cgroup이 활성화되었지만 NUMA 인식 기능을 활성화해야하도록 설정해야하는지 확실하지 않습니다. 아래는 현재 구성의 일부 출력입니다. 어떻게해야합니까? 감사.워크 스테이션에서 TORQUE v6.1.0을 사용하는 노드 상태 = down

$ pbsnodes 
node1 
state = down 
power_state = Running 
np = 54 
ntype = cluster 
mom_service_port = 15002 
mom_manager_port = 15003 
total_sockets = 0 
total_numa_nodes = 0 
total_cores = 0 
total_threads = 0 
dedicated_sockets = 0 
dedicated_numa_nodes = 0 
dedicated_cores = 0 
dedicated_threads = 0 


$ lssubsys -am 
cpuset /sys/fs/cgroup/cpuset 
cpu,cpuacct /sys/fs/cgroup/cpu,cpuacct 
blkio /sys/fs/cgroup/blkio 
memory /sys/fs/cgroup/memory 
devices /sys/fs/cgroup/devices 
freezer /sys/fs/cgroup/freezer 
net_cls,net_prio /sys/fs/cgroup/net_cls,net_prio 
perf_event /sys/fs/cgroup/perf_event 
hugetlb /sys/fs/cgroup/hugetlb 
pids /sys/fs/cgroup/pids

는 서버 나 서버의 구성 파일에 이미 정의 노드를 볼 수없는 것 같다 또한 비린내 부분이있다. 이것은 /var/spool/torque/server_logs 로그 파일을 볼 수 있습니다 : 나는 /var/spool/torque/cgroup 디렉토리에 CPU와 다른 모듈을 탑재했지만, 한 lssubsys -am 여전히를 보여 주었다 : /etc/hosts이

127.0.0.1 localhost node1 
127.0.0.1 NapaValley

는 PS, 내가 가진 내에서

12/27/2016 15:48:33.147;01;PBS_Server.2692;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about 
12/27/2016 15:49:18.232;01;PBS_Server.2692;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about 
12/27/2016 15:49:25.491;08;PBS_Server.2696;Job;0.NapaValley;Job deleted at request of [email protected] 
12/27/2016 15:49:27.023;08;PBS_Server.2657;Job;0.NapaValley;on_job_exit valid pjob: 0.NapaValley (substate=59) 
12/27/2016 15:49:32.996;256;PBS_Server.2657;Job;0.NapaValley;dequeuing from batch, state COMPLETE 
12/27/2016 15:49:59.722;256;PBS_Server.2696;Job;1.NapaValley;enqueuing into batch, state 1 hop 1 
12/27/2016 15:49:59.722;08;PBS_Server.2696;Job;perform_commit_work;job_id: 1.NapaValley 
12/27/2016 15:49:59.722;02;PBS_Server.2696;node;close_conn;Closing connection 9 and calling its accompanying function on close 
12/27/2016 15:49:59.795;64;PBS_Server.2692;Req;node_spec;job allocation request exceeds currently available cluster nodes, 1 requested, 0 available 
12/27/2016 15:49:59.796;08;PBS_Server.2692;Job;1.NapaValley;Job Modified at request of [email protected] 
12/27/2016 15:50:03.312;01;PBS_Server.2696;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about

을 위와 같은 정보. 나는 그들이 탑재되어 있어야한다고 생각하니?

출처

2016-12-27 Xiaodong Qi

hwloc으로 구성 했습니까? 는 http://docs.adaptivecomputing.com/9-1-0/installGuide/RH6/help.htm#topics/hpcSuiteInstall/manual/installing/installingTorque.htm#hwloc 이 버전 1.9.1+ 이 필요 2.2.3 ("Torque Server 설치") : 2. 시스템 구성에 따라 ./configure 명령 옵션을 추가해야합니다. 최소한 다음을 추가하십시오. --enable-cgroups --with-hwloc-path =/usr/local 자세한 내용은 1.2.1 토크를 참조하십시오. 또한 계산 노드 *에 cgroup-tools *** 및 hwloc *** *을 설치해야합니다. – clusterdude

원본에서 hwloc 1.11.5를 설치했습니다. cgroup-tools는 Ubuntu 패키지 저장소에서 설치되었습니다. 내가 configure를 실행할 때, 매뉴얼에 기반하여 지적한대로'./configure --enable-cgroups --with-hwloc-path =/usr/local'을 사용했습니다. 노드가 내 워크 스테이션의 서버에 정확히 있기 때문에 hwloc을 다시 설치할 필요가 없다고 생각합니다. 맞습니까? –

오, 죄송합니다 ... 노드에 대한 서버 로그 라인을 놓쳤습니다. 아래에 답변을 게시 할 것입니다. – clusterdude

노드는 gethostbyname 호출에 의해 반환 된 이름으로 서버에보고합니다. 게시 한 로그 행을 기반으로 서버와 노드는 해당 이름에 동의하지 않습니다. 당신은 할 수 있습니다 pbs_mom -H 옵션으로 시작하여 다른 이름을 반환 : ".. -H 호스트 이름은 MOM의 호스트 이름을 설정이 멀티 홈 네트워크에 유용 할 수있다"

http://docs.adaptivecomputing.com/torque/6-0-2/adminGuide/help.htm#topics/torque/commands/pbs_mom.htm#-h

가

을 /var/spool/torque/mom_priv/config으로 설정하는 것과 같습니다.

출처

2016-12-28 01:21:59 clusterdude

이 솔루션을 게시 해 주셔서 감사합니다. 나는 서버의 이름을 노드의 이름으로 사용하고'log_level = 7'을 설정하여이 문제를 해결했다. 아마 당신의 솔루션도 효과가있을 것이라고 생각하지만,이 문제가 작동하는 해결책을 찾기 위해 일주일이 걸렸으므로 지금 시험에 지쳐 있습니다.어쨌든, 이것은 다른 사람들에게 도움이 될 수 있으며 귀하의 노력에 대한 보상을 받아야합니다! –

워크 스테이션에서 TORQUE v6.1.0을 사용하는 노드 상태 = down

답변

관련 문제