우분투 16.04 워크 스테이션에 Torque 6.1.0을 설치했지만 설치시 기계에 몇 개의 코어와 스레드가 있는지 인식하지 못하는 것 같습니다. 설정 한 유일한 노드는 "state = down"상태이고 어떤 작업이든 "올바른 유형의 노드가개가 아닙니다"라는 오류를 트리거합니다. 사실, 워크 스테이션은 2 개의 프로세서에 56 개의 스레드 또는 28 개의 물리적 코어 을 가지고 있으며, 공유 컴퓨팅 작업을 위해 단지 54 개의 스레드 또는 27 개의 물리적 코어 만 사용하려고합니다. 이것이 설치하는 동안 내가 옳은 일을하고 있다면 Torv6.0부터 시작하는 cgroup 또는 NUMA의 구성과 관련이 있다는 것을 깨달았습니다. 실제로 cgroup
이 활성화되었지만 NUMA 인식 기능을 활성화해야하도록 설정해야하는지 확실하지 않습니다. 아래는 현재 구성의 일부 출력입니다. 어떻게해야합니까? 감사.워크 스테이션에서 TORQUE v6.1.0을 사용하는 노드 상태 = down
$ pbsnodes
node1
state = down
power_state = Running
np = 54
ntype = cluster
mom_service_port = 15002
mom_manager_port = 15003
total_sockets = 0
total_numa_nodes = 0
total_cores = 0
total_threads = 0
dedicated_sockets = 0
dedicated_numa_nodes = 0
dedicated_cores = 0
dedicated_threads = 0
$ lssubsys -am
cpuset /sys/fs/cgroup/cpuset
cpu,cpuacct /sys/fs/cgroup/cpu,cpuacct
blkio /sys/fs/cgroup/blkio
memory /sys/fs/cgroup/memory
devices /sys/fs/cgroup/devices
freezer /sys/fs/cgroup/freezer
net_cls,net_prio /sys/fs/cgroup/net_cls,net_prio
perf_event /sys/fs/cgroup/perf_event
hugetlb /sys/fs/cgroup/hugetlb
pids /sys/fs/cgroup/pids
는 서버 나 서버의 구성 파일에 이미 정의 노드를 볼 수없는 것 같다 또한 비린내 부분이있다. 이것은 /var/spool/torque/server_logs
로그 파일을 볼 수 있습니다 : 나는 /var/spool/torque/cgroup
디렉토리에 CPU와 다른 모듈을 탑재했지만, 한 lssubsys -am
여전히를 보여 주었다 : /etc/hosts
이
127.0.0.1 localhost node1
127.0.0.1 NapaValley
는 PS, 내가 가진 내에서
12/27/2016 15:48:33.147;01;PBS_Server.2692;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about
12/27/2016 15:49:18.232;01;PBS_Server.2692;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about
12/27/2016 15:49:25.491;08;PBS_Server.2696;Job;0.NapaValley;Job deleted at request of [email protected]
12/27/2016 15:49:27.023;08;PBS_Server.2657;Job;0.NapaValley;on_job_exit valid pjob: 0.NapaValley (substate=59)
12/27/2016 15:49:32.996;256;PBS_Server.2657;Job;0.NapaValley;dequeuing from batch, state COMPLETE
12/27/2016 15:49:59.722;256;PBS_Server.2696;Job;1.NapaValley;enqueuing into batch, state 1 hop 1
12/27/2016 15:49:59.722;08;PBS_Server.2696;Job;perform_commit_work;job_id: 1.NapaValley
12/27/2016 15:49:59.722;02;PBS_Server.2696;node;close_conn;Closing connection 9 and calling its accompanying function on close
12/27/2016 15:49:59.795;64;PBS_Server.2692;Req;node_spec;job allocation request exceeds currently available cluster nodes, 1 requested, 0 available
12/27/2016 15:49:59.796;08;PBS_Server.2692;Job;1.NapaValley;Job Modified at request of [email protected]
12/27/2016 15:50:03.312;01;PBS_Server.2696;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about
을 위와 같은 정보. 나는 그들이 탑재되어 있어야한다고 생각하니?
hwloc으로 구성 했습니까? 는 http://docs.adaptivecomputing.com/9-1-0/installGuide/RH6/help.htm#topics/hpcSuiteInstall/manual/installing/installingTorque.htm#hwloc 이 버전 1.9.1+ 이 필요 2.2.3 ("Torque Server 설치") : 2. 시스템 구성에 따라 ./configure 명령 옵션을 추가해야합니다. 최소한 다음을 추가하십시오. --enable-cgroups --with-hwloc-path =/usr/local 자세한 내용은 1.2.1 토크를 참조하십시오. 또한 계산 노드 *에 cgroup-tools *** 및 hwloc *** *을 설치해야합니다. – clusterdude
원본에서 hwloc 1.11.5를 설치했습니다. cgroup-tools는 Ubuntu 패키지 저장소에서 설치되었습니다. 내가 configure를 실행할 때, 매뉴얼에 기반하여 지적한대로'./configure --enable-cgroups --with-hwloc-path =/usr/local'을 사용했습니다. 노드가 내 워크 스테이션의 서버에 정확히 있기 때문에 hwloc을 다시 설치할 필요가 없다고 생각합니다. 맞습니까? –
오, 죄송합니다 ... 노드에 대한 서버 로그 라인을 놓쳤습니다. 아래에 답변을 게시 할 것입니다. – clusterdude